본문 바로가기

One hot encoding

[머신러닝] 데이터(레이블)를 벡터로 변환하는 방법 (파이썬 코드) 다중 분류 문제를 해결하기 위한 학습 모델을 만들 때, 학습에 사용할 데이터를 준비하는 단계에서 데이터를 벡터로 변환하는 과정을 거쳐야 하는데요, 아래와 같이 데이터를 벡터로 만들어주는 함수를 만들어서 사용할 수 있습니다. import numpy as np def vectorize_sequences(sequences, dimension=10000): results = np.zeros((len(sequences), dimension)) for i, sequence in enumerate(sequences): results[i, sequence] = 1. return results 만약, train_data = [1, 42, 323, 34,66, 85]라는 정수 인코딩이 된 데이터가 있다고 가정할 때, 이 .. 더보기
[자연어처리] 파이썬으로 원 핫 인코딩(One-Hot Encoding) 구현하기 (코드) 1. 원-핫 인코딩이란? 원-핫 인코딩(One-Hot Encoding)이란 단어 집합의 크기를 벡터 차원으로 만든 뒤, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고 다른 인덱스에는 0을 부여하는 방식을 말합니다. 한편, 케라스에서는 원-핫 인코딩을 하기 위한 함수 'to_categorical()'를 제공하는데요, 코드를 통해 원-핫 인코딩을 어떻게 하는지 살펴보도록 하겠습니다. 2. 코드 구현하기 먼저, 다음과 같은 문장이 있다고 가정해보겠습니다. text = "나는 얼죽아 추워도 아이스아메리카노 나는 아이스아메리카노 좋아 아이스아메리카노 마시자" 그리고나서 이 문장에 대해 원-핫 인코딩을 하기 위한 코드를 작성해보겠습니다. (1) 라이브러리 설치 먼저, 원 핫 인코딩을 하기 위한 라이브러리를 비롯.. 더보기