본문 바로가기

덮어쓰기

[웹크롤링] 크롤링 데이터 저장 - 중복되지 않는 폴더 생성 방법 (현재 날짜 / 시간 사용) 대량의 이미지를 크롤링하고 저장하는 경우, 중간에 다시 시작해버리면 덮어쓰기가 돼버려서 이전에 저장했던 이미지가 사라질 수 있는데요, 이러한 경우 어떻게 해야 할까요? 다시 시작할 때마다 폴더의 이름을 바꾸기엔 비효율적일 수 있습니다. 따라서 이에 대한 해결책은 바로 폴더명을 현재 날짜, 시간이 들어가게 만들면 되는데요, 이러한 이름으로 폴더를 만들게 되면 절대 폴더가 중복되지 않습니다. 한편, 현재 시간을 측정하기 위해 time 라이브러리를 사용해야 하는데요, 아래 코드를 보면서 현재 날짜, 시간이 들어간 폴더 생성 방법에 대해 알아보도록 하겠습니다. 먼저, 전체 코드를 보도록 하겠습니다. import time basic_dir = "c:\\test\\" #저장할 기본경로 n = time.localti.. 더보기
[데이터분석] 데이터프레임 : inplace = True 뜻 데이터프레임을 다루는 코드를 구글링 하다 보면, 해당 함수 안에 inplace = True 라는 코드가 입력되어 있는 것을 많이 볼 수 있는데요, inplace = True 란 무엇을 의미하는 걸까요? 먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52.. 더보기