본문 바로가기

비율

[데이터 리뷰] 강원 공공데이터(3) - 강원도 인구 추이 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #68 강원 공공데이터(3) - 강원도 인구 추이 데이터 강원도는 인접한 수도권 지역이나 서울보다 도심화가 덜 이루어져 있기 때문에 강원도하면 뭔가 젊은층보다 노년층이 많을 것 같고, 인구가 점점 줄어드는 지역일 것이라는 인식이 있는데요, 실제로 강원도 내에 몇몇 특정 지역에서 산업도시가 활성화되면서 인구가 많이 증가하고 있다고 합니다. 이와 관련해서 강원 공공데이터 플랫폼에서는 '강원도 인구 추이' 데이터를 제공하고 있는데요, 무려 1961년부터 2018년까지 한국인, 외국인에 대한 각종 인구 정보들이 수집되어 있습니다. 그렇다면 이번 데이터 리뷰기에서는 해당 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다! .. 더보기
[머신러닝] train_test_split : 비율 설정 방법 - test_size 이전 글에서는 train_test_split() 함수를 이용하여 데이터를 train data와 test data로 나눌 때, 무작위로 나눌지 순차적으로 나눌지 설정하는 방법에 대해 살펴보았는데요, 이번에는 train data와 test data로 나눌 때 비율을 지정해주는 방법에 대해서 살펴보도록 하겠습니다. - train_test_split : 비율 설정 방법 train_test_split() 함수를 사용하여 데이터를 train data와 test data로 나눌 때, 기본값은 75 : 25 비율로 나누어지게 됩니다. 하지만, 데이터가 많이 없다면 학습할 데이터를 늘려주어야 하며, 데이터가 매우 많다면 오버피팅 문제를 방지하기 위해 학습할 데이터를 조금 줄여주는 게 좋을 수 있습니다. 따라서 각 상황에.. 더보기
[데이터분석] 데이터프레임 : 랜덤으로 행 출력하기 (원하는 비율) - sample 데이터프레임을 다양하게 변경할 때, 변경되었는지 확인하기 위해 head() 함수 또는 tail() 함수를 주로 사용합니다. 하지만 head() 함수와 tail() 함수는 상단 또는 하단에 있는 행만 보이기 때문에 중간에 데이터가 어떠한지 모를 수 있습니다. 따라서 데이터를 무작위로 추출하려면 sample() 함수를 사용하는 것이 적절한데요, 아래 코드를 보면서 설명드리도록 하겠습니다. 1. sample(n = 개수) : '개수'만큼 무작위로 행 추출하기 만약 df라는 데이터프레임이 있을 때, 10개의 행만 랜덤으로 추출해서 보고 싶다면, 다음과 같이 코드를 입력하면 됩니다. df.sample(n=10) 2. sample(frac = 비율) : '비율'만큼 무작위로 행 추출하기 반면, 개수를 지정하는 것 .. 더보기