본문 바로가기

train_test_split

[머신러닝] train_test_split : 비율 설정 방법 - test_size 이전 글에서는 train_test_split() 함수를 이용하여 데이터를 train data와 test data로 나눌 때, 무작위로 나눌지 순차적으로 나눌지 설정하는 방법에 대해 살펴보았는데요, 이번에는 train data와 test data로 나눌 때 비율을 지정해주는 방법에 대해서 살펴보도록 하겠습니다. - train_test_split : 비율 설정 방법 train_test_split() 함수를 사용하여 데이터를 train data와 test data로 나눌 때, 기본값은 75 : 25 비율로 나누어지게 됩니다. 하지만, 데이터가 많이 없다면 학습할 데이터를 늘려주어야 하며, 데이터가 매우 많다면 오버피팅 문제를 방지하기 위해 학습할 데이터를 조금 줄여주는 게 좋을 수 있습니다. 따라서 각 상황에.. 더보기
[머신러닝] train_test_split : 순차적으로/무작위로 데이터 나누는 방법 train_test_split 함수는 데이터를 학습데이터의 입력값, 결과값과 테스트 데이터의 입력값, 결과값으로 데이터를 나눠주는 함수인데요, 설정을 통해 순차적으로 데이터를 나눌지, 무작위로 데이터를 나눌지 선택할 수 있답니다. 설정하는 방법은 매우 간단한데요, 아래 코드를 보면서 살펴보도록 하겠습니다. - train_test_split : 순차적으로/무작위로 데이터 나누기 train_test_split 함수에서 데이터를 무작위로 나눌지, 순차적으로 나눌지에 대해선 'shuffle'을 통해 설정할 수 있는데요, train_test_split 함수에서 shuffle은 기본값으로 shuffle = True 로 설정되어 있기 때문에, 따로 코드를 입력해주지 않아도 무작위로 나누어집니다. 하지만 만약 데이터를.. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터 train data와 test data로 나누는 방법 사이킷런 데이터를 이용하여 머신러닝 모델을 학습시키려고 하면, 이 데이터를 train data와 test data로 나눠야 하는데요, 코드를 어떻게 작성해야 하는지 아래 코드를 보며 살펴보도록 하겠습니다. 1. 데이터 불러오기 먼저, 데이터를 불러오는 코드부터 살펴볼텐데요, 사이킷런 데이터에서 대표적으로 사용되는 iris data를 불러오는 코드를 작성해보겠습니다. from sklearn import datasets iris_dataset = datasets.load_iris() 이와 같이 입력한 뒤, 아래와 같이 iris_dataset.keys() 를 입력하고 실행하면, 'data'와 'target'이라는 array가 있는 것을 확인할 수 있습니다. iris_dataset.keys() # output .. 더보기