[데이터분석] 데이터프레임 : 결측치 있는지 확인하기 & 칼럼별 개수 세기 - isnull(), isnull().sum()
데이터 분석을 하기 전 데이터 전처리를 할 때, 결측치(결측값, NaN)가 있으면 데이터 분석을 할 때 문제가 될 수 있는데요, 사전에 결측치가 있는지 알아보는 것이 중요합니다. 하지만 데이터가 많지 않을 때 결측치가 있는지 한 눈에 알 수 있지만 데이터가 매우 많다면 결측치가 어디에 있는지, 칼럼마다 몇 개가 있는지 확인하기 어려울 수 있습니다. 따라서 pandas 에서는 결측치가 얼마큼 있는지 알려주는 함수를 제공하는데요, 아래 예시와 코드를 보면서 설명하도록 하겠습니다. 1. isnull() : 결측치 확인하기 먼저, 결측치가 있는지 확인하는 함수는 isnull() 함수로, 각 행, 열마다 결측치가 있는 데이터가는 True, 결측치가 아닌 데이터는 False를 반환합니다. 예를 들어, 아래와 같은 ..
더보기
[데이터분석] 데이터프레임 : 특정 칼럼의 데이터 종류별로 평균 / 합 구하는 방법 - groupby()
데이터프레임으로 데이터분석을 하다 보면, 특정 칼럼(열) 데이터 종류별로 평균이나 합을 구해야 하는 경우가 있을 수 있는데요, 이러한 경우 groupby() 함수를 사용하여 구할 수 있습니다. groupby() 함수는 말 그대로 그룹을 지어주는 함수로, 평균을 구하는 함수 mean()과 전체 합을 구하는 함수 sum() 을 함께 사용함으로써 그룹별 평균과 합을 구할 수 있습니다. 1. 특정 칼럼, 데이터 종류별로 합 구하기 코드를 보면서 살펴볼텐데요, 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000,..
더보기
[데이터분석] 데이터프레임 : 칼럼(열) 이름 변경하는 방법 - rename()
데이터프레임으로 데이터분석을 할 때, 전처리 과정으로 칼럼의 이름을 알아보기 쉽게 변경하는 경우가 있는데요, 칼럼의 이름을 어떻게 변경하는지 알아보도록 하겠습니다. - rename() : 칼럼(열) 이름 변경하기 rename() 함수는 칼럼의 이름을 변경하는 함수인데요, df.rename(columns = {'old_name' : 'new_name'), inplace=True) 와 같이 코드를 입력해서 사용하면 됩니다. 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], '..
더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열) 삭제하기 - drop()
데이터프레임으로 데이터 분석을 할 때, 필요 없는 칼럼은 삭제하는 게 좋은데요, drop() 함수를 사용하면 쉽게 칼럼을 삭제할 수 있습니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4ad..
더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열) 기준으로 오름차순/내림차순 정렬하기 - sort_values()
데이터프레임으로 데이터 분석을 할 때, 필요 없는 칼럼은 제거하거나 특정 칼럼을 기준으로 정렬하는 등 데이터 전처리 과정을 거치게 되는데요, 이때 특정 칼럼(열) 기준으로 정렬을 하려면 어떻게 해야 할까요? 데이터프레임에는 sort_values() 라는 함수를 이용하여 정렬을 할 수 있는데요, 아래 코드를 보면서 설명드리도록 하겠습니다. - sort_values : 특정 칼럼 기준으로 정렬 먼저 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3..
더보기
[데이터분석] 데이터프레임 : 특정 칼럼만 조회하기
데이터프레임으로 데이터분석을 할 때, 칼럼이 너무 많다면 필요 없는 칼럼은 없애거나 필요한 칼럼만 조회해서 사용하는 것이 더 효율적일 수 있는데요, 원하는 특정 칼럼만 조회하는 방법은 매우 간단하답니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice5000..
더보기
[데이터분석] 데이터프레임 - 칼럼(열) 순서 바꾸기
데이터프레임은 칼럼(열)이 있는데요, 이 칼럼의 순서를 바꾸고 싶을 수 있습니다. 칼럼을 바꾸는 방법은 매우 쉬운데요, 우선, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'a.breeze'], 'price': [3000, 4000, 5000, 2000, 2000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4a.breeze 20002.04 위 데이터프레임을 보면..
더보기