본문 바로가기

검색어

[데이터 리뷰] 디지털산업혁신 플랫폼(2) - 유저 인터넷 키워드 정보 데이터 (쿠팡, 네이버 등) 데이터 리뷰 : 데이터 대신 읽어드립니다! #8 디지털산업혁신 플랫폼(2) - 유저 인터넷 키워드 정보 데이터 (쿠팡, 지마켓, 11번가, 옥션 등) 작년, 발병한 코로나19에 대해서 미리 이를 예측한 곳이 있었는데요, 스마트 체온계 기기를 판매하는 의료기기업체 '킨사 헬스'였습니다. 판매하는 스마트 체온계 기기는 인터넷과 연동되는 기기였는데요, 스마트 체온계로 발혈 환자가 급증한 지역을 실시간으로 찾았고, 그곳은 코로나 바이러스 확진 환자가 발생한 지역이었다고 합니다. 실제로도 킨사의 발열 환자 분포도는 우한 코로나 환자 발생지와 일치했다고 합니다. 이처럼 이 사건은 개개인이 이용한 인터넷 정보들이 모여 하나의 큰 흐름을 발견한 사례인데요, 그만큼 각 유저들의 인터넷 정보는 하나의 중요한 데이터가 될 .. 더보기
[웹크롤링] 검색창에 입력된 텍스트 지우는 방법 - clear() 만약 검색창이 있는 페이지 또는 쇼핑몰 사이트에서 원하는 검색어를 입력한 뒤, 해당 페이지를 크롤링할 때, 검색창에 텍스트를 입력해야 합니다. 하지만 여러 키워드로 검색을 할 때, 기존의 키워드를 지워야 하는데요, 이때 검색창에서 텍스트를 지우는 방법에 대해서 알아보도록 하겠습니다. 예시로, 네이버 홈페이지에 '여행'이라는 검색어를 입력하는 코드를 작성해보겠습니다. (selenium과 크롬 드라이버를 사용한다는 가정하에 설명드리겠습니다.) from bs4 import BeautifulSoup from selenium import webdriver import time path = "c:/temp/chromedriver_240/chromedriver.exe" #chomedriver의 경로 driver = .. 더보기
[웹크롤링] 네이버 - 연관검색어 크롤링하기 (selenium, 크롬 드라이버 사용) 이전 글에서는 requests를 이용해서 검색어에 대한 연관검색어를 크롤링하는 방법에 대해서 살펴보았는데요, 이번 글에서는 selenium과 크롬 드라이버를 이용해서 연관검색어를 크롤링하는 방법에 대해서 살펴보도록 하겠습니다. 1. 필요한 라이브러리 import 하기 from bs4 import BeautifulSoup from selenium import webdriver import time 먼저, 필요한 라이브러리를 설치해줍니다. 이때 selenium 웹 드라이버를 사용했습니다. 2. 크롬 드라이버 경로 설정하기 path = "c:/temp/chromedriver_240/chromedriver.exe" ###chomedriver의 경로 위치 driver = webdriver.Chrome(path) .. 더보기
[웹크롤링] 네이버 - 연관 검색어 크롤링하기 (requests 사용) 네이버에서 원하는 검색어를 입력하면 아래 이미지처럼 홈페이지 맨 하단에 연관 검색어가 나오는데요, 이 연관 검색어를 크롤링해서 저장하는 방법에 대해서 살펴보도록 하겠습니다. (requests를 사용한다는 가정하에 설명드리겠습니다. 크롬 드라이버를 사용한 방법은 다음 글에서 설명드리겠습니다.) 1. 필요한 라이브러리 import 하기 from bs4 import BeautifulSoup import requests 필요한 라이브러리로 BeautifulSoup, requests를 import 해주었습니다. 2. 키워드 입력받고 url, params 설정하기 keyword = input("연관검색어를 찾을 키워드를 입력하세요 : ") url = "https://search.naver.com/search.nav.. 더보기
[웹크롤링] 네이버 검색창에 검색어 입력하는 방법 (selenium) 네이버 홈페이지는 크롤링할 때 자주 사용되는 페이지 중 하나인데요, 네이버 홈페이지의 검색창에 원하는 텍스트를 입력한 뒤, 검색버튼을 누르는 코드에 대해서 살펴보도록 하겠습니다. 먼저, 네이버 홈페이지를 여는 코드를 작성하도록 하겠습니다. from bs4 import BeautifulSoup from selenium import webdriver import time path = "c:/temp/chromedriver_240/chromedriver.exe" #사용자 크롬드라이버경로 입력 driver = webdriver.Chrome(path) driver.get("http://naver.com") time.sleep(2) # 2초기달리기 필요한 라이브러리를 import 한 뒤, path 변수에 크롬드라이.. 더보기