본문 바로가기

javascript

[웹크롤링] 자바 스크립트로 이루어진 페이지, json 형식으로 불러오는 방법은? 동적 페이지와 같이 자바스크립트로 이루어진 페이지를 json으로 불러온 뒤, 크롤링을 해야 경우가 있을 수 있는데요, 이러한 경우 어떻게 해야 할까요? 우선, 자바스크립트로 이루어진 페이지의 url을 찾아야 합니다. 이전 글에서 자바스크립트로 이루어진 페이지의 url을 찾는 방법에 대해 살펴보았는데요, 다시 간단하게 설명하자면, F12를 누른 뒤 [Network] 탭에서 "XHR", 또는 "JS" 버튼을 누르며 보이는 항목들을 클릭하면 됩니다. 그리고, 항목들을 미리보기(Preview) 하면서 해당되는 영역이 맞다면 "Headers" 에서 Request URL 부분을 복사하면 됩니다. 아래 이미지처럼 URL을 찾아서 복사하면 됩니다. 그리고나서, 아래와 같이 코드를 작성했다고 가정할 때, url = "자.. 더보기
[웹크롤링] 자바스크립트 비활성 하는 방법 예를 들어, 구글에서 이미지를 크롤링할 때, html 말고도 자바스크립트로 이루어진 이미지가 있을 수 있는데요, 이러한 겨우 자바스크립트를 비활성 해서 이미지를 수집해야 합니다. 한편, 해당 페이지가 자바스크립트로 이루어졌는지 확인하는 경우에도 자바스크립트를 비활성하면 되는데요, 자바스크립트를 비활성하는 방법은 F12를 누른 뒤, [setting(톱니바퀴)] - [Preferences] - [Debugger] 에서 'Disable JavaScript' 를 체크하면 됩니다. 아래 이미지처럼 오른쪽 하단에 체크박스에 체크를 하면 됩니다. 그리고나서, F5를 눌러 페이지를 새로고침 했을 때, 해당 페이지가 나오지 않거나, 일부분이 안 보인다면 그 영역은 자바스크립트로 이루어졌다고 보면 됩니다. 저는 위 이미지.. 더보기