[데이터분석] 데이터프레입 : 중복된 행 삭제

이전 글에서는 데이터프레임에서 중복된 행이 있는지 확인하고, 중복된 행이 몇 개 있는지 구하는 방법에 대해서 살펴보았는데요, 이번 글에서는 중복된 행을 삭제하는 방법에 대해서 설명하도록 하겠습니다.

1. drop_duplicates() : 중복된 행 삭제하기

먼저, 다음과 같이 중복된 데이터가 있는 데이터프레임이 있다고 가정해보겠습니다.

	temp	item	count	price
0	hot	coffee	1	3000
1	ice	juice	3	4000
2	ice	ade	2	5000
3	hot	coffee	1	3000
4	hot	tea	3	4000
5	ice	water	2	1000
6	ice	juice	3	4000

위 데이터 프레임을 보면, 3번째 행은 0번재 행과 중복, 6번째 행은 1번째 행과 중복됩니다.

이는 duplicated() 함수를 통해서 아래 코드처럼 중복된 행이 몇 개인지 구할 수 있습니다.

df.duplicated().sum()

이제 중복된 행에 대해서 삭제를 하기 위해 drop_duplicates() 함수를 사용해보겠습니다.

df.drop_duplicates(inplace=True)
display(df)

	temp	item	count	price
0	hot	coffee	1	3000
1	ice	juice	3	4000
2	ice	ade	2	5000
4	hot	tea	3	4000
5	ice	water	2	1000

중복된 행을 삭제하고 데이터프레임을 다시 출력한 결과, 중복된 행이 있던 행은 삭제되었음을 확인할 수 있습니다.

'BLOG > 데이터분석' 카테고리의 다른 글

[데이터분석] 데이터프레임 : 특정 조건 만족하는 행 삭제하기 - drop() (0)	2021.03.11
[데이터분석] 데이터프레임 : 특정 조건 만족하는 행 추출 & 해당 인덱스 반환 (0)	2021.03.11
[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum() (0)	2021.03.11
[데이터분석] 데이터프레임 : 결측치 있는지 확인하기 & 칼럼별 개수 세기 - isnull(), isnull().sum() (0)	2021.03.11
[데이터분석] 데이터프레임 concat() 으로 병합 시, 인덱스 재배열 하는 방법 (0)	2021.03.11

디노랩스

[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates

1. drop_duplicates() : 중복된 행 삭제하기

'BLOG > 데이터분석' 카테고리의 다른 글

티스토리툴바

[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates

1. drop_duplicates() : 중복된 행 삭제하기

'BLOG > 데이터분석' 카테고리의 다른 글

'BLOG/데이터분석' Related Articles

티스토리툴바