본문 바로가기

url

[웹크롤링] 자바스크립트로 이루어진 페이지와 html로 이루어진 페이지를 크롤링 하는 코드가 다른가요? 1. html로 이루어진 페이지 html로 이루어진 페이지를 크롤링하는 것은 자바스크립트로 이루어진 페이지를 크롤링하는 것과 다르게 코드를 작성해야 하는지 궁금하실 수 있는데요, html로 이루어진 페이지와 자바스크립트로 이루어진 페이지를 크롤링하는 방법은 약간 다르답니다! html로 이루어진 경우 간단하게 url을 찾고 BeautifulSoup()를 이용하여 본문을 가져오면 되는데요, 기본적으로 다음과 같이 코드를 입력하면 됩니다. from bs4 import BeautifulSoup import requests url = "https://www.naver.com/" resp = requests.get(url,params) soup = BeautifulSoup(resp.content, 'lxml') 2.. 더보기
[웹크롤링] 자바스크립트 페이지의 url 찾는 방법 자바스크립트로 이루어진 페이지 또는 영역을 크롤링하려면, 해당 페이지의 url을 알아야 하는데요, 자바스크립트 페이지의 url을 알아내는 방법은 F12를 누른 뒤 [Network] 탭에서 "XHR" 또는 "JS" 버튼을 누르며 보이는 항목들을 클릭해보면서 찾아야 합니다. 아래 페이지는 네이버 금융 페이지에서, [Network] 탭의 "XHR" 을 눌렀을 때 보이는 화면입니다. 아래 각 항목을 누르면 어느 영역을 나타내는 항목인지 가늠할 수 있는데요, 원하는 항목을 찾으면 오른쪽 "Headers"에서 "Request URL" 부분을 복사하면 됩니다. 한 URL 을 골라서 주소창에 입력해본 결과 아래와 같은 페이지를 확인할 수 있습니다. 따라서 이와 같이 해당 url을 찾으면 이제 이 url을 자신의 코드에.. 더보기
[웹크롤링] 이미지 크롤링해서 저장하는 방법 - urlib 이미지를 크롤링해서 저장하고 싶다면 urlib 이라는 라이브러리를 통해 이미지를 저장할 수 있습니다. 한편, 이미지는 주로 'src' 태그에 'https://링크~.jpg' 이런 식으로 텍스트로 되어 있는데요, 이 텍스트를 가져온 다음, urlib를 이용하여 폴더에 저장하면 된답니다. 그렇다면, 예시로, 네이버 웹툰 홈페이지에서 아래 이미지와 같이 웹툰의 섬네일을 저장하는 방법에 대해서 살펴보겠습니다. 1. 월요웹툰 페이지 본문 가져오기 이미지를 저장하기 앞서, 먼저 월요웹툰 페이지를 열고, 해당 페이지의 본문을 가져오는 코드를 작성하도록 하겠습니다. from bs4 import BeautifulSoup import requests import urllib.request import urllib url .. 더보기
[웹크롤링] 네이버 - 원하는 검색어가 입력된 페이지 열기 네이버에서 원하는 검색어를 입력한 뒤, 해당 페이지를 크롤링하는 방법은 다양한데요, 그중에서도 주소에 대해 params 값을 설정해서 해당 페이지 html을 가져오는 방법에 대해서 살펴보도록 하겠습니다. (selenium을 사용하지 않고, requests를 사용한다는 가정하에 설명드립니다.) 우선, 전체적인 코드를 보여드리도록 하겠습니다. from bs4 import BeautifulSoup import requests url = "https://search.naver.com/search.naver?" params = { 'where' : 'nexearch', 'query' : '여행', 'fbm' : '0' } resp = requests.get(url,params) soup = BeautifulSou.. 더보기