본문 바로가기

인코딩

[자연어처리] 정수 인코딩 하기 - fit_on_texts() 단어에 정수를 부여하는 것을 정수 인코딩이라고 하는데요, 자주 사용되는 정수 인코딩 방법은 단어를 빈도수 순으로 정렬한 뒤, 빈도수가 높은 순서대로 차례대로 낮은 숫자부터 부여하는 방법입니다. 한편, 케라스에서 fit_on_texts() 라는 함수를 제공하는데요, 이 함수를 이용하면 문자열 데이터(코퍼스)를 빈도수 기준으로 단어 집합을 생성해 줍니다. 그리고나서 맵핑을 위해 texts_to_sequences() 함수를 사용하면 되는데요, 아래 코드를 보면서 살펴보도록 하겠습니다. 1. 필요한 라이브러리 설치 먼저 필요한 라이브러리를 설치해줍니다. import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer 2. fit_on_te.. 더보기
[파이썬] 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence 에러, 해결 방법은? csv 파일을 열 때, 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence 와 같은 에러가 뜨는 경우가 있는데요, 이러한 경우는 인코딩에서 문제가 발생했다는 뜻입니다. 따라서 만약 csv 파일을 불러왔을 때 인코딩 설정 없이 다음과 같이 코드를 작성했었다면, import csv f = open(r"C\test\sample.csv") f_csv = csv.reader(f) 아래와 같이 코드를 수정해보시기 바랍니다. import csv f = open(r"C\test\sample.csv", encoding="utf-8") # encoding="utf-8" 추가하기 f_csv = csv.reader(f) 더보기