본문 바로가기

사이킷런

[머신러닝] StandardScaler : 표준화 하기 (파이썬 코드) 표준화란 데이터의 평균을 0, 분산과 표준편차를 1로 만들어주는 것을 말하는데요, 표준화를 하는 이유는 다른 통계 데이터와 비교하는 데에 있어 용이하게 하기 위함입니다. 만약, 표준화를 하지 않으면 한 데이터셋과 다른 데이터셋의 평균과 분산, 표준편차는 제각각으로 서로 비교할 수 없습니다. 따라서 표준화를 통해 분포를 단순화시켜서 비교를 쉽게 할 수 있답니다. 한편, 사이킷런(Scikit-learn) 라이브러리에서 StandardScaler 함수를 제공하는데요, 아래 코드를 보면서 살펴보도록 하겠습니다. 먼저, StandardScaler 함수를 사용하여 표준화를 하는 코드는 다음과 같습니다. from sklearn.preprocessing import StandardScaler std_scaler = S.. 더보기
[머신러닝] MinMaxScaler : 0~1 스케일로 정규화 하기 (파이썬 코드) MinMaxScaler는 스케일을 조정하는 정규화 함수로, 모든 데이터가 0과 1 사이의 값을 갖도록 해주는 함수입니다. 따라서 최댓값은 1로, 최솟값은 0으로 데이터의 범위를 조정해줍니다. 한편, MinMaxScaler 함수는 파이썬에서 다음과 같이 입력하여 사용할 수 있습니다. from sklearn.preprocessing import MinMaxScaler minmax_scaler = MinMaxScaler() minmax_scaled = minmax_scaler.fit_transform(X_train) #x_train라는 데이터 입력 먼저 필요한 라이브러리인 MinMaxScaler를 import 해주고, 두 번째 줄 ~ 세 번째 줄 코드처럼 정규화를 하는 함수에 정규화를 할 데이터(X_train.. 더보기
[머신러닝] MSE, MAE 뜻 & 구현 코드 1. MSE(Mean Squared Error) MSE란 Mean Squared Error의 약자로, 말 그대로 예측 값과 실제 값의 차이에 대한 제곱을 평균한 값을 말합니다. MSE의 경우 오차가 작으면 성능이 좋을 수 있지만, 과대적합이 될 수도 있습니다. 한편, MSE는 오차에 대해서 예측한 값이 실제 값보다 큰지, 작은지를 알 수 없다는 특징을 갖고 있습니다. - MSE : 코드로 구현하기 사이킷런(Scikit-learn) 패키지에서는 MSE를 구하는 라이브러리를 제공하는데요, 만약 실제 값 'true_y'와 예측한 값 'pred_y'의 MSE 값을 구하고 싶다면 다음과 같이 코드를 작성하면 됩니다. from sklearn.metrics import mean_squared_error #필요한 라이.. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터로 ElasticNet 회귀 모델 만들기 - ElasticNet() 이전에 사이킷런 라이브러리와 데이터를 이용하여 Ridge, Lasso 회귀 모델을 만드는 방법에 대해서 살펴보았는데요, 이번에 살펴볼 ElasticNet 회귀 모델 역시 같은 방법으로 코드를 입력하면 된답니다. 한번 아래 코드를 보면서 차근차근 살펴보도록 하겠습니다. 1. ElasticNet 모델이란? ElasticNet은 Ridge와 Lasso를 결합한 형태의 모델로, 가중치의 절대값의 합(L1)과 제곱의 합(L2)을 동시에 제약 조건으로 가지는 모델을 말합니다. 따라서 Ridge와 Lasso 보다 좋은 성능을 낼 수 있다는 장점을 가지는 모델입니다. 한편, 사이킷런에서 제공하는 ElasticNet 함수에서 L1과 L2의 비율을 지정할 수 있는데, 아래에서 살펴보도록 하겠습니다. 2. 학습에 사용할 데.. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터로 라쏘 회귀 모델 만들기 - Lasso() 지난 글에서는 사이킷런 라이브러리를 이용하여 릿지 회귀 모델을 만들어보았는데요, 이번에는 라쏘(Lasso) 회귀 모델을 만드는 방법에 대해서 살펴보겠습니다. 1. 라쏘 회귀 모델이란? 라쏘(Lasso)는 선형 회귀 모델 중 하나로, 릿지(Ridge) 회귀 모델을 보완하기 위해 사용됩니다. 라쏘 모델은 릿지와 같이 계수를 0에 가깝도록 만드는 L1 규제를 하며, 가중치의 절대값의 합을 최소화하는 계수를 추가하는 방식을 통해 학습을 합니다. 이러한 라쏘는 많은 특성 중 일부분만 분석할 때 쉽게 분석이 가능하다는 장점을 갖고 있습니다. 2. 학습할 데이터 불러오기 라쏘 회귀 모델을 만들기 앞서, 필요한 라이브러리를 설치해주어야 하며, 학습에 사용할 데이터를 불러와야 하는데요, 사이킷런에서 제공하는 보스턴 주택.. 더보기
[머신러닝] 사이킷런(Scikit-learn) : 간단한 선형모델 만들기 & 가중치, 절편 구하기 사이킷런(Scikit-learn) 라이브러리를 이용하여 간단한 선형모델을 만들어 볼 수 있는데요, 아래 코드를 보면서 차근차근 살펴보도록 하겠습니다. 1. 필요한 라이브러리 설치 먼저, 선형모델을 만들기 위한 라이브러리와 데이터에 사용할 난수를 발생시킬 라이브러리를 설치해줍니다. import mglearn from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split 2. 학습시킬 sample data 만들기 그다음, 학습시킬 sample data를 만들어주어야 하는데요, 위에서 import 한 mglearn 라이브러리를 이용하여 sample data를 만들어주겠습니다. X, y = .. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터의 특성 / 클래스 별 데이터 개수 / 크기 확인하기 사이킷런(Scikit-learn) 라이브러리는 의사결정 트리, 분류, 회귀 등의 알고리즘에 사용하기 적합한 함수 및 데이터를 제공하는 라이브러리로, 이번 글에서는 사이킷런에서 제공하는 데이터를 불러와 데이터의 특성, 클래스 별 데이터의 개수, 크기를 확인하는 방법에 대해서 살펴보도록 하겠습니다. 1. 데이터 불러오기 - iris_data 먼저, 사용할 사이킷런 데이터를 불러와야 하는데요, 그중 대표적인 iris_data 를 불러오도록 하겠습니다. from sklearn.datasets import load_iris iris = load_iris() 데이터를 불러와 iris 라는 변수에 저장해주었습니다. 2. 데이터의 특성 살펴보기 그 다음에, 데이터에 어떠한 특성(keys)이 있는지 살펴보려면 .keys.. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터 train data와 test data로 나누는 방법 사이킷런 데이터를 이용하여 머신러닝 모델을 학습시키려고 하면, 이 데이터를 train data와 test data로 나눠야 하는데요, 코드를 어떻게 작성해야 하는지 아래 코드를 보며 살펴보도록 하겠습니다. 1. 데이터 불러오기 먼저, 데이터를 불러오는 코드부터 살펴볼텐데요, 사이킷런 데이터에서 대표적으로 사용되는 iris data를 불러오는 코드를 작성해보겠습니다. from sklearn import datasets iris_dataset = datasets.load_iris() 이와 같이 입력한 뒤, 아래와 같이 iris_dataset.keys() 를 입력하고 실행하면, 'data'와 'target'이라는 array가 있는 것을 확인할 수 있습니다. iris_dataset.keys() # output .. 더보기
[머신러닝] 사이킷런(Scikit-learn) - iris(붓꽃) 데이터 불러와 데이터프레임으로 저장하기 사이킷런(Scikit-learn) 라이브러리는 의사결정 트리, 분류, 회귀 등의 알고리즘에 사용하기 적합한 함수 및 데이터를 제공하는 라이브러리로, 이번 글에서는 사이킷런에서 제공하는 데이터를 불러와 데이터프레임 형식으로 보는 방법에 대해서 살펴보도록 하겠습니다. - 사이킷런 데이터 불러오기 사이킷런 라이브러리에는 다양한 데이터가 들어있는데요, 그중 대표적인 데이터인 iris(붓꽃) 데이터를 가져와보겠습니다. from sklearn import datasets iris_dataset = dataset.iris() 먼저, sklearn 에서 데이터가 들어있는 datasets 라이브러리를 import 해준 다음, dataset.load_iris() 을 통해 iris 데이터를 가져와 iris_dataset 이.. 더보기
[머신러닝] 사이킷런(Scikit-learn) - sklearn 데이터 불러오기 (보스턴 주택데이터) 사이킷런(Scikit-learn) 라이브러리는 의사결정 트리, 분류, 회귀 등의 알고리즘에 사용하기 적합한 함수 및 데이터를 제공하는 라이브러리로, 이번 글에서는 사이킷런에서 제공하는 데이터를 불러와 데이터프레임 형식으로 보는 방법에 대해서 살펴보도록 하겠습니다. - 사이킷런 데이터 불러오기 사이킷런 라이브러리에는 다양한 데이터가 들어있는데요, 그중 보스턴 주택 데이터를 가져와보겠습니다. from sklearn import datasets boston_dataset = dataset.load_boston() 먼저, sklearn 에서 데이터가 들어있는 datasets 라이브러리를 import 해준 다음, dataset.load_boston() 을 통해 보스턴 주택 데이터를 가져와 boston_datase.. 더보기