이전 글에서는 데이터 프레임에서 결측치가 있는 행을 찾는 함수 isnull()과 칼럼마다 결측치의 개수를 구하는 함수 isnull().sum() 함수에 대해 알아보았는데요, 이번에는 중복된 행을 찾는 함수 duplicated()와 그 개수를 구하는 방법에 대해서 살펴보도록 하겠습니다.
1. duplicated() : 중복된 행 찾기
먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다.
temp item count price
0 hot coffee 1 3000
1 ice juice 5 4000
2 ice ade 2 5000
3 hot coffee 1 3000
4 hot tea 3 4000
5 ice water 2 1000
위 데이터프레임을 보면, 0번째 행과 3번째 행의 데이터가 겹치는 것을 볼 수 있는데요,
한 번 duplicated() 함수를 이용하여 중복된 데이터를 찾는지 살펴보겠습니다.
df.duplicated()
0 False
1 False
2 False
3 True
4 False
5 False
dtype: bool
함수 사용 결과, 3번째 행에서 True를 반환한 것을 볼 수 있는데요, 이는 3번째 행이 중복된 데이터라는 것을 의미합니다.
2. duplicated() : 중복된 행 개수 구하기
한편, 데이터가 매우 많아지면 duplicate()로 중복된 데이터를 찾는 것에 한계가 있을 수 있는데요, sum() 함수를 결합해줌으로써 중복된 행이 몇 개인지 나타낼 수 있습니다.
df.duplicated().sum()
1
출력 결과, 1이 나왔는데요, 중복된 데이터가 1개임을 의미한답니다.
이렇게 중복된 행과 중복된 행의 개수를 구하는 방법에 대해서 살펴보았는데요, 다음 글에서는 중복된 행을 삭제하는 방법에 대해서 살펴보도록 하겠습니다.
'BLOG > 데이터분석' 카테고리의 다른 글
[데이터분석] 데이터프레임 : 특정 조건 만족하는 행 추출 & 해당 인덱스 반환 (0) | 2021.03.11 |
---|---|
[데이터분석] 데이터프레입 : 중복된 행 삭제 - drop_duplicates (0) | 2021.03.11 |
[데이터분석] 데이터프레임 : 결측치 있는지 확인하기 & 칼럼별 개수 세기 - isnull(), isnull().sum() (0) | 2021.03.11 |
[데이터분석] 데이터프레임 concat() 으로 병합 시, 인덱스 재배열 하는 방법 (0) | 2021.03.11 |
[데이터분석] 데이터프레임 : 위/아래, 좌/우로 합치기 - concat() (0) | 2021.03.11 |