본문 바로가기

시간

[웹크롤링] 크롤링 데이터 저장 - 중복되지 않는 폴더 생성 방법 (현재 날짜 / 시간 사용) 대량의 이미지를 크롤링하고 저장하는 경우, 중간에 다시 시작해버리면 덮어쓰기가 돼버려서 이전에 저장했던 이미지가 사라질 수 있는데요, 이러한 경우 어떻게 해야 할까요? 다시 시작할 때마다 폴더의 이름을 바꾸기엔 비효율적일 수 있습니다. 따라서 이에 대한 해결책은 바로 폴더명을 현재 날짜, 시간이 들어가게 만들면 되는데요, 이러한 이름으로 폴더를 만들게 되면 절대 폴더가 중복되지 않습니다. 한편, 현재 시간을 측정하기 위해 time 라이브러리를 사용해야 하는데요, 아래 코드를 보면서 현재 날짜, 시간이 들어간 폴더 생성 방법에 대해 알아보도록 하겠습니다. 먼저, 전체 코드를 보도록 하겠습니다. import time basic_dir = "c:\\test\\" #저장할 기본경로 n = time.localti.. 더보기
[웹크롤링] 크롤링 수행 시간 측정하기 - time 크롤링을 수행하는데 걸린 시간을 측정하고 싶다면, time 라이브러리를 사용하여 쉽게 측정할 수 있답니다. 아래 코드를 보면서 살펴보도록 하겠습니다. - time() : 시간 측정하기 time 라이브러리에서 제공하는 time() 모듈은 현재 시간을 나타내는 기능을 하는데요, 크롤링을 하기 전에 시간을 측정하고, 크롤링이 끝났을 때 시간을 측정해 두 시간의 차이를 구하면 얼마나 걸렸는지 알 수 있습니다. 따라서 아래 코드처럼 코드를 입력하면 됩니다. import time start_time = time.time() #시작 시간 # 크롤링 수행 코드 end_time = time.time() #종료 시간 total_time = end_time - start_time #걸린시간 print(total_time) .. 더보기