이전 글에서는 데이터프레임에서 중복된 행이 있는지 확인하고, 중복된 행이 몇 개 있는지 구하는 방법에 대해서 살펴보았는데요, 이번 글에서는 중복된 행을 삭제하는 방법에 대해서 설명하도록 하겠습니다.
1. drop_duplicates() : 중복된 행 삭제하기
먼저, 다음과 같이 중복된 데이터가 있는 데이터프레임이 있다고 가정해보겠습니다.
temp item count price
0 hot coffee 1 3000
1 ice juice 3 4000
2 ice ade 2 5000
3 hot coffee 1 3000
4 hot tea 3 4000
5 ice water 2 1000
6 ice juice 3 4000
위 데이터 프레임을 보면, 3번째 행은 0번재 행과 중복, 6번째 행은 1번째 행과 중복됩니다.
이는 duplicated() 함수를 통해서 아래 코드처럼 중복된 행이 몇 개인지 구할 수 있습니다.
df.duplicated().sum()
2
이제 중복된 행에 대해서 삭제를 하기 위해 drop_duplicates() 함수를 사용해보겠습니다.
df.drop_duplicates(inplace=True)
display(df)
temp item count price
0 hot coffee 1 3000
1 ice juice 3 4000
2 ice ade 2 5000
4 hot tea 3 4000
5 ice water 2 1000
중복된 행을 삭제하고 데이터프레임을 다시 출력한 결과, 중복된 행이 있던 행은 삭제되었음을 확인할 수 있습니다.
'BLOG > 데이터분석' 카테고리의 다른 글
[데이터분석] 데이터프레임 : 특정 조건 만족하는 행 삭제하기 - drop() (0) | 2021.03.11 |
---|---|
[데이터분석] 데이터프레임 : 특정 조건 만족하는 행 추출 & 해당 인덱스 반환 (0) | 2021.03.11 |
[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum() (0) | 2021.03.11 |
[데이터분석] 데이터프레임 : 결측치 있는지 확인하기 & 칼럼별 개수 세기 - isnull(), isnull().sum() (0) | 2021.03.11 |
[데이터분석] 데이터프레임 concat() 으로 병합 시, 인덱스 재배열 하는 방법 (0) | 2021.03.11 |