본문 바로가기

중복

[웹크롤링] 두번씩 크롤링 되는 텍스트, 중복 제거하는 방법 - set() 적절한 태그를 찾아 크롤링을 했는데도, 동일한 텍스트가 두 번씩 추출되는 경우가 있을 수 있는데요, 이러한 경우는 속성 태그에 있는 텍스트가 함께 출력되었을 수 있습니다. 따라서 다시 적절한 태그와 속성값을 이용해 텍스트를 크롤링하는 것이 좋은데요, 이 방법 말고도 set() 함수를 이용하여 쉽게 해결할 수 있습니다. set() 함수는 리스트 안에서 중복된 데이터를 제거해주는 함수로, 만약 두 번씩 텍스트가 크롤링되어서 저장되었다면, set() 함수를 통해 중복된 데이터를 모두 제거할 수 있답니다. 먼저, 다음과 같이 텍스트를 크롤링해서 얻은 리스트가 있다고 가정해보겠습니다. list1 = ['사과', '사과', '딸기', '딸기', '바나나', '바나나', '수박', '수박', '포도', '포도'] 위.. 더보기
[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates 이전 글에서는 데이터프레임에서 중복된 행이 있는지 확인하고, 중복된 행이 몇 개 있는지 구하는 방법에 대해서 살펴보았는데요, 이번 글에서는 중복된 행을 삭제하는 방법에 대해서 설명하도록 하겠습니다. 1. drop_duplicates() : 중복된 행 삭제하기 먼저, 다음과 같이 중복된 데이터가 있는 데이터프레임이 있다고 가정해보겠습니다. tempitemcountprice 0hotcoffee13000 1icejuice34000 2iceade25000 3hotcoffee13000 4hottea34000 5icewater21000 6icejuice34000 위 데이터 프레임을 보면, 3번째 행은 0번재 행과 중복, 6번째 행은 1번째 행과 중복됩니다. 이는 duplicated() 함수를 통해서 아래 코드처럼 .. 더보기
[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum() 이전 글에서는 데이터 프레임에서 결측치가 있는 행을 찾는 함수 isnull()과 칼럼마다 결측치의 개수를 구하는 함수 isnull().sum() 함수에 대해 알아보았는데요, 이번에는 중복된 행을 찾는 함수 duplicated()와 그 개수를 구하는 방법에 대해서 살펴보도록 하겠습니다. 1. duplicated() : 중복된 행 찾기 먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. tempitemcountprice 0hotcoffee13000 1icejuice54000 2iceade25000 3hotcoffee13000 4hottea34000 5icewater21000 위 데이터프레임을 보면, 0번째 행과 3번째 행의 데이터가 겹치는 것을 볼 수 있는데요, 한 번 duplicated() 함수를 .. 더보기
[파이썬] replace 함수, 2번만 적용 시키려면? 적용 횟수 지정 방법 replace() 함수는 문자열 데이터에서 중간에 특정 문자 또는 문자열을 다른 문자(or 공백)로 대체한다는 점에서 변경(or 삭제)에 사용되는데요, 문자열 안에 모든 동일 문자에 적용되는지, 또 몇 번만 적용시킬 수 있는지 아래의 코드를 보면서 설명하도록 하겠습니다. str1 = "나는 커피를 마시고 싶어요! 커피 한 잔 주세요. 커피는 얼마인가요?" new_str = str1.replace("커피", "차") print(new_str) '나는 차를 마시고 싶어요! 차 한 잔 주세요. 차는 얼마인가요?' str1을 보면 '커피'라는 문자가 세 번이나 들어가고, replace()를 통해 3개의 문자가 모두 '차'로 변경되었습니다. 즉, replace() 함수는 동일 문자에 대해서 일괄적으로 적용이 되는.. 더보기
[파이썬] 문자를 다른 문자로 바꾸려면? - replace 데이터를 처리할 때, 문자열에서 특정 문자를 다른 문자로 바꾸거나 내용을 바꾸고 싶을 때, replace() 함수를 사용하면 됩니다. replace 함수는 str.replace("바꾸고싶은문자", "바꿀문자") 의 형식으로 코드를 입력하면 되는데요, 아래 예시를 보도록 하겠습니다. str1 = "나는 커피를 마시고 싶어요!" 만약 위와 같은 문자열 str1 이 있고, 문자열에서 '커피'를 '차'로 바꾸고 싶다면 아래와 같이 코드를 작성하면 됩니다. new_str = str1.replace("커피", "차") print(new_str) '나는 차를 마시고 싶어요!' 위 결과를 보면, "커피" 라는 문자가 "차"로 변경되었음을 볼 수 있습니다. 그렇다면, 문자열에 '커피' 라는 문자가 여러 번 있고, rep.. 더보기