본문 바로가기

BLOG/웹크롤링

[웹크롤링] 자바스크립트 비활성 하는 방법

 

예를 들어, 구글에서 이미지를 크롤링할 때, html 말고도 자바스크립트로 이루어진 이미지가 있을 수 있는데요, 이러한 겨우 자바스크립트를 비활성 해서 이미지를 수집해야 합니다.

 

한편, 해당 페이지가 자바스크립트로 이루어졌는지 확인하는 경우에도 자바스크립트를 비활성하면 되는데요,

자바스크립트를 비활성하는 방법은 F12를 누른 뒤, [setting(톱니바퀴)] - [Preferences] - [Debugger] 에서 'Disable JavaScript' 를 체크하면 됩니다. 아래 이미지처럼 오른쪽 하단에 체크박스에 체크를 하면 됩니다.

 

 

그리고나서, F5를 눌러 페이지를 새로고침 했을 때, 해당 페이지가 나오지 않거나, 일부분이 안 보인다면 그 영역은 자바스크립트로 이루어졌다고 보면 됩니다.

 

저는 위 이미지처럼 구글에 '여행' 이라는 키워드를 입력한 후 이미지 페이지에서 자바스크립트를 해제했더니 아래와 같이 이미지가 보이는 페이지 형식이 조금 달라졌습니다.

 

 

 

또한, 동적 페이지는 자바스크립트로 이루어져 있는데요, 보통 해결방법으로 selenium을 사용하지만, selenium은 처리 속도가 빠르지 않는다는 단점이 있습니다. 따라서 selenium을 사용하지 않고 자바스크립트를 비활성한 뒤 크롤링을 하는 것이 좋답니다.