본문 바로가기

인덱스

[데이터분석] 데이터프레임 : 다중 인덱스 설정하는 방법 - set_index() 데이터프레임에서는 인덱스를 하나만 설정하는 것 말고도 여러 개의 칼럼으로 인덱스를 설정할 수 있는데요, 아래 코드를 보면서 다중 인덱스를 설정하는 방법에 대해 살펴보도록 하겠습니다. - set_index() : 다중 인덱스 설정하기 먼저, 아래와 같은 데이터프레임(df)이 있다고 가정해보겠습니다. classnummatheng 0A19798 1A26776 2A38997 3B17667 4B27989 5B36877 6C19898 7C25887 8C39767 데이터프레임을 보면 'class' 칼럼에 A, B, C 에 해당하는 데이터가 있고, 'num' 칼럼에는 1, 2, 3이라는 데이터가 있으며, 'math'와 'eng' 칼럼에는 점수에 해당하는 값들이 입력되어 있습니다. 만약 위 데이터프레임에서 'class'.. 더보기
[데이터분석] 데이터프레임 : 정렬 후 인덱스 재정렬 하기 - reset_index(drop = True) 데이터프레임으로 분석을 하기 전 전처리 과정을 거치는데요, sort() 함수를 이용하여 정렬을 시키는 경우가 있습니다. 하지만 sort() 함수를 사용하고 나면, 인덱스 번호가 뒤죽박죽 섞이게 되는데요, 이를 재정렬하기 위해 인덱스를 지웠다 새로 만들기보다, reset_index() 함수를 이용하면 쉽게 재정렬 할 수 있답니다. 한 번 아래 코드를 보면서 살펴보도록 하겠습니다. - reset_index(drop=True) : 인덱스 재정렬하기 먼저, 아래와 같이 정렬을 하기 전인 데이터프레임(df)이 있다고 가정해보겠습니다. itemcountpricerating 0coffee130004.5 1juice540003.0 2ade250004.0 3milk130002.5 4tea340003.0 5water230.. 더보기
[데이터분석] 데이터프레임 concat() 으로 병합 시, 인덱스 재배열 하는 방법 여러 개의 데이터프레임은 concat() 함수로 위아래 또는 좌우로 병합할 수 있는데요, 이때 인덱스는 자동으로 재배열되어서 나오지 않는답니다. 따라서 어떻게 해야 인덱스를 재배열할 수 있는지 코드를 보면서 살펴보도록 하겠습니다. 먼저, 아래와 같은 두 데이터프레임이 있다고 가정해보겠습니다. tempitemcountpricerating 0hotcoffee130004.5 1icejuice540003.0 2iceade250004.0 indextempitemcountpricerating 03hotmilk420002.5 14hottea340003.0 25icewater210004.5 이제 이 두 데이터프레임을 합치려고 하는데요, concat() 함수 안에 합칠 데이터프레임을 다음과 같이 입력하면 됩니다. pd... 더보기
[데이터분석] 데이터 프레임 : 인덱싱 - iloc / loc 차이 이전 포스팅에서는 데이터프레임에서 원하는 행을 인덱싱 하는 iloc[ ] 에 대해서 알아보았는데요, iloc[ ] 뿐만 아니라 loc[ ] 도 인덱싱을 하는 함수입니다. iloc[ ] 와 loc[ ] 의 차이에 대해 바로 설명하자면, iloc[ ] 는 인덱스 번호로 인덱싱 하는 방법이고, loc[ ] 는 인덱스 이름으로 인덱싱 하는 방법입니다. 한 번 코드를 보면서 설명드리도록 하겠습니다. 1. iloc[ ] : 인덱스 번호로 인덱싱 먼저, 다음과 같은 데이터프레임(df)이 있다고 가정해보겠습니다. tempitemcountpricerating 0hotcoffee130004.5 1icejuice540003.0 2iceade250004.0 3hotmilk420002.5 4hottea340003.0 5icew.. 더보기
[파이썬] 리스트 인덱싱 기초 : list[-1] 이란? 리스트 안에 있는 데이터를 인덱싱 하는 것은 매우 간단하면서도 기초적인 것인데요, 간단하게 인덱싱 하는 방법에 대해 살펴보도록 하겠습니다. - 리스트(List) 인덱싱 하기 우선 다음과 같은 리스트 'list1'이 있다고 가정해보겠습니다. list1 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ,10] 리스트에서 인덱스는 0부터 시작하는데요, 만약 두 번째 데이터를 갖고 오고 싶다면 인덱스가 1인 데이터를 찾아와야 합니다. 한편, 인덱싱 하는 방법은 리스트명[인덱스번호] 처럼 코드를 입력하면 됩니다. # 첫 번째 데이터 인덱싱 list1[0] # 두 번째 데이터 인덱싱 list1[1] 그렇다면, 리스트에 데이터가 몇 개 인지 모를 정도로 매우 많은데, 마지막에 있는 데이터를 인덱싱 하려면 어.. 더보기
[파이썬] 인덱스 반환 함수 - enumerate() 란? enumerate() 함수는 주로 반복문에서 사용되는데요, 몇 번째 반복되고 있는지 인덱스를 확인할 때 사용합니다. enumerate 함수를 어떻게 사용하는지 다음 코드를 보면서 살펴보도록 하겠습니다. - enumerate() 먼저, 아래와 같은 리스트 'list1'이 있고, list1에 있는 데이터를 하나씩 출력할 때 보통 다음과 같이 코드를 작성합니다. list1 = [50,100,150,200,250,300] for i in range(len(list1)) : print(i, "번째 데이터 :", list1[i]) 0 번째 데이터 : 50 1 번째 데이터 : 100 2 번째 데이터 : 150 3 번째 데이터 : 200 4 번째 데이터 : 250 5 번째 데이터 : 300 여기서 반복하는 것을 ran.. 더보기
[파이썬] array 배열에서 최솟값과 최댓값의 인덱스 반환하는 방법 array 배열에서 최솟값과 최댓값을 구하려면 np.min(), np.max() 함수를 사용하면 되는데요, 그렇다면 최솟값과 최댓값의 인덱스 번호를 알고 싶다면 어떻게 해야할까요? 최솟값과 최댓값의 인덱스를 반환해주는 함수가 바로 argmin(), argmax() 함수인데요, 아래 코드를 보며 설명하도록 하겠습니다. - argmin(), argmax() : 최솟값, 최댓값의 인덱스 반환 argmin(), argmax() 함수는 array에서 최솟값과 최댓값의 인덱스를 반환해주는 함수인데요, 먼저, 아래와 같은 array가 있다고 가정해보겠습니다. import numpy as np arr1 = np.random.randn(2,5) print(arr1) [[ 2.69686599 0.19144308 1.460.. 더보기
[파이썬] 데이터프레임(dataframe) 지정된 행 삭제하기 - drop() 데이터프레임을 이용하여 데이터를 다룰 때, 특정 행을 지워야 할 수 있는데요, 이때 사용하는 함수가 바로 drop() 입니다. drop() 함수는 .drop([행번호]) 와 같이 사용할 수 있습니다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd info = pd.DataFrame({'item' : ['coffee', 'tea', 'juice' ], 'price' : [3000, 4000, 5000], 'rating' : [4.0, 3.5, 3.7]}) info itempricerating 0coffee30004.0 1tea40003.5 2juice50003.7 위 데이터프레임에서 만약 인덱스가 1인 'tea'-'4000'-'3.5' 행을 지우고 싶다.. 더보기
[파이썬] 데이터프레임(dataframe) 인덱스 설정 / 해제 - set_index, reset_index 데이터프레임을 다룰 때, 인덱스를 설정하는 일이 참 많은데요, 인덱스를 설정하려면 set_index, 해제하려면 reset_index 라고 입력하면 됩니다. 아래의 코드를 보며 살펴보도록 하겠습니다. 1. set_index : 인덱스 설정하기 set_index() 함수를 이용하여 인덱스를 설정할 수 있는데요, 인덱스로 설정할 칼럼 이름을 괄호 안에 입력해주면 된답니다. import pandas as pd info = pd.DataFrame({'item' : ['coffee', 'tea', 'juice' ], 'price' : [3000, 4000, 5000], 'rating' : [4.0, 3.5, 3.7]}) info itempricerating 0coffee30004.0 1tea40003.5 2jui.. 더보기