본문 바로가기

BLOG/데이터분석

[데이터분석] 데이터프레임 : 칼럼(열) 이름 변경하는 방법 - rename() 데이터프레임으로 데이터분석을 할 때, 전처리 과정으로 칼럼의 이름을 알아보기 쉽게 변경하는 경우가 있는데요, 칼럼의 이름을 어떻게 변경하는지 알아보도록 하겠습니다. - rename() : 칼럼(열) 이름 변경하기 rename() 함수는 칼럼의 이름을 변경하는 함수인데요, df.rename(columns = {'old_name' : 'new_name'), inplace=True) 와 같이 코드를 입력해서 사용하면 됩니다. 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], '.. 더보기
[데이터분석] 데이터프레임 : inplace = True 뜻 데이터프레임을 다루는 코드를 구글링 하다 보면, 해당 함수 안에 inplace = True 라는 코드가 입력되어 있는 것을 많이 볼 수 있는데요, inplace = True 란 무엇을 의미하는 걸까요? 먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52.. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열) 삭제하기 - drop() 데이터프레임으로 데이터 분석을 할 때, 필요 없는 칼럼은 삭제하는 게 좋은데요, drop() 함수를 사용하면 쉽게 칼럼을 삭제할 수 있습니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4ad.. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열) 기준으로 오름차순/내림차순 정렬하기 - sort_values() 데이터프레임으로 데이터 분석을 할 때, 필요 없는 칼럼은 제거하거나 특정 칼럼을 기준으로 정렬하는 등 데이터 전처리 과정을 거치게 되는데요, 이때 특정 칼럼(열) 기준으로 정렬을 하려면 어떻게 해야 할까요? 데이터프레임에는 sort_values() 라는 함수를 이용하여 정렬을 할 수 있는데요, 아래 코드를 보면서 설명드리도록 하겠습니다. - sort_values : 특정 칼럼 기준으로 정렬 먼저 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼만 조회하기 데이터프레임으로 데이터분석을 할 때, 칼럼이 너무 많다면 필요 없는 칼럼은 없애거나 필요한 칼럼만 조회해서 사용하는 것이 더 효율적일 수 있는데요, 원하는 특정 칼럼만 조회하는 방법은 매우 간단하답니다. 먼저, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'ade'], 'price': [3000, 4000, 5000, 2000, 5000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice5000.. 더보기
[데이터분석] 데이터프레임 - 칼럼(열) 순서 바꾸기 데이터프레임은 칼럼(열)이 있는데요, 이 칼럼의 순서를 바꾸고 싶을 수 있습니다. 칼럼을 바꾸는 방법은 매우 쉬운데요, 우선, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'a.breeze'], 'price': [3000, 4000, 5000, 2000, 2000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4a.breeze 20002.04 위 데이터프레임을 보면.. 더보기
[데이터분석] csv 파일 dataframe으로 불러오기 - pd.read_csv() 데이터 분석을 할 때, 데이터가 외부 파일인 csv 파일이라면 이를 불러와야 하는데요, 이때 csv 파일에 있는 데이터를 데이터프레임으로 전환해서 분석을 하려고 한다면 csv 파일을 불러오는 코드보다 바로 데이터프레임 형식으로 불러오는 방법이 좋은데요, 아래 코드를 보면서 설명드리도록 하겠습니다. - pd.read_csv() : csv 파일 dataframe 형식으로 불러오기 pandas 라이브러리에서 제공하는 pd.read_csv() 함수는 csv 파일을 바로 dataframe 형식으로 불러오는 함수입니다. 괄호 안에 파일 이름과 인코딩 정보를 입력하면 되는데요, 아래와 같이 코드를 작성하면 됩니다. import pandas as pd import csv df = pd.read_csv("test1.cs.. 더보기
[데이터분석] strip/lstrip/rstrip 문자열 공백 제거하기 데이터 분석을 할 때, 전처리 하기 전 문자열 데이터의 경우 " abc", "abc ", " abc " 와 같이 공백이 포함되어 있는 경우가 있는데요, 이러한 공백은 strip(), lstrip(), rstrip() 함수를 이용하여 제거할 수 있습니다. 1. strip() 첫 번째로 strip 함수는 문자열 기준 양쪽 공백을 모두 제거하는 함수로, 아래와 같이 사용할 수 있습니다. str1 = " abc " print(str1.strip()) 'abc' 위 결과를 보면, 문자 'abc' 좌우에 있던 공백이 사라졌음을 확인할 수 있습니다. 2. lstrip() & rstrip() 한편, lstrip 함수는 문자열 왼쪽에 있는 공백만 제거하는 함수이고, rstrip 은 문자열 오른쪽에 있는 공백만 제거하는 .. 더보기