본문 바로가기

나누기

[자연어처리] Okt : 형태소 단위로 나누는 방법 (파이썬) 자연어처리를 할 때, 데이터 전처리로 문장을 형태소 단위로 나누는 과정을 거쳐야 하는데요, 파이썬에서 형태소 단위로 나누는 라이브러리는 다양합니다. 그중에서 Okt 라이브러리를 이용하여 형태소 단위로 나누는 방법에 대해서 살펴보도록 하겠습니다. - 형태소 단위로 나누기 먼저, 필요한 라이브러리를 설치해줍니다. from konlpy.tag import Okt import re 그리고, 형태소 단위로 나눌 문장은 다음과 같다고 가정하겠습니다. text1 = "Tue) 오늘도 나는 커피를 마셔요!" Okt 객체를 이용해서 이 문장을 형태소 단위로 나누기 전, 한글과 공백을 제외한 문자를 모두 제거해주어야 하는데요, 정규표현식을 이용해서 코드를 다음과 같이 입력해주면 됩니다. text2 = re.sub("[^가.. 더보기
[머신러닝] train_test_split : 비율 설정 방법 - test_size 이전 글에서는 train_test_split() 함수를 이용하여 데이터를 train data와 test data로 나눌 때, 무작위로 나눌지 순차적으로 나눌지 설정하는 방법에 대해 살펴보았는데요, 이번에는 train data와 test data로 나눌 때 비율을 지정해주는 방법에 대해서 살펴보도록 하겠습니다. - train_test_split : 비율 설정 방법 train_test_split() 함수를 사용하여 데이터를 train data와 test data로 나눌 때, 기본값은 75 : 25 비율로 나누어지게 됩니다. 하지만, 데이터가 많이 없다면 학습할 데이터를 늘려주어야 하며, 데이터가 매우 많다면 오버피팅 문제를 방지하기 위해 학습할 데이터를 조금 줄여주는 게 좋을 수 있습니다. 따라서 각 상황에.. 더보기
[머신러닝] train_test_split : 순차적으로/무작위로 데이터 나누는 방법 train_test_split 함수는 데이터를 학습데이터의 입력값, 결과값과 테스트 데이터의 입력값, 결과값으로 데이터를 나눠주는 함수인데요, 설정을 통해 순차적으로 데이터를 나눌지, 무작위로 데이터를 나눌지 선택할 수 있답니다. 설정하는 방법은 매우 간단한데요, 아래 코드를 보면서 살펴보도록 하겠습니다. - train_test_split : 순차적으로/무작위로 데이터 나누기 train_test_split 함수에서 데이터를 무작위로 나눌지, 순차적으로 나눌지에 대해선 'shuffle'을 통해 설정할 수 있는데요, train_test_split 함수에서 shuffle은 기본값으로 shuffle = True 로 설정되어 있기 때문에, 따로 코드를 입력해주지 않아도 무작위로 나누어집니다. 하지만 만약 데이터를.. 더보기
[머신러닝] 사이킷런(Scikit-learn) 데이터 train data와 test data로 나누는 방법 사이킷런 데이터를 이용하여 머신러닝 모델을 학습시키려고 하면, 이 데이터를 train data와 test data로 나눠야 하는데요, 코드를 어떻게 작성해야 하는지 아래 코드를 보며 살펴보도록 하겠습니다. 1. 데이터 불러오기 먼저, 데이터를 불러오는 코드부터 살펴볼텐데요, 사이킷런 데이터에서 대표적으로 사용되는 iris data를 불러오는 코드를 작성해보겠습니다. from sklearn import datasets iris_dataset = datasets.load_iris() 이와 같이 입력한 뒤, 아래와 같이 iris_dataset.keys() 를 입력하고 실행하면, 'data'와 'target'이라는 array가 있는 것을 확인할 수 있습니다. iris_dataset.keys() # output .. 더보기
[파이썬] 주피터 노트북(jupyter notebook) : 셀 분리하기 / 병합하기 단축키 주피터 노트북에서 코딩을 하다 보면 일부분만 실행을 해보기 위해 셀을 분리해야 되는 경우가 있고, 또 분리된 셀을 병합해야 하는 경우가 있을 수 있는데요, 단축키를 모른다면 일일이 복붙 해야 한답니다. 따라서 셀을 쉽게 분리하고 병합할 수 있는 단축키에 대해서 알아보도록 하겠습니다. 1. 셀 분리하기 : ctrl + shift + '-' 먼저 셀을 분리하는 단축키는 바로 ctrl + shift + '-' 인데요, 분리하고 싶은 부분을 커서로 누른 뒤, 해당 단축키를 누르면 됩니다. 그러면 해당 부분을 기준으로 앞부분은 기존 셀에 남아있고, 뒷부분은 새로운 셀로 분리된답니다. 2. 셀 병합하기 : shift + 'm' 반면, 셀을 병합하는 단축키는 shift + 'm' 으로, edit mode가 아닌 co.. 더보기
[파이썬] 문자열, 공백/빈칸 기준으로 나누기, 횟수 지정 - split split() 함수는 문자열에서 특장 문자를 기준으로 좌, 우로 끊은 뒤, 리스트로 반환해주는 함수인데요, str.split('기준문자') 처럼 코드를 입력하면 됩니다. 이때 기준문자는 사라집니다. 한편, '기준문자'를 공백/빈칸(" ") 으로 입력하면 공백 기준으로 문자열을 나눌 수 있게 되는데요, 다음과 같이 코드를 입력하면 됩니다. str1 = '홍길동 010-1234-1234 서울종로구 남' str1_list = str1.split(" ") print(str1_list) ['홍길동', '010-1234-1234', '서울종로구', '남'] 위 결과를 보면 빈칸 기준으로 문자열이 나누어진 것을 확인할 수 있습니다. 한편, split(" ") 은 모든 " "에 대해서 나누어졌는데, 한 번만 적용시켜야.. 더보기