본문 바로가기

설정

[자연어처리] 패딩(Padding) : 길이 지정 방법 - maxlen (파이썬) 이전 글들에서 패딩을 하는 기본적인 방법과, 제로 패딩을 할 때 0을 뒤로 채우는 방법 등에 대해서 살펴보았는데요, 이번에는 패딩을 할 때, 길이를 지정하는 방법에 대해서 살펴보도록 하겠습니다. 먼저, 기본적으로 패딩을 하는 코드를 작성하고, 그 결과를 보겠습니다. import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer sentences = [['place', 'tree'], ['tree', 'nice', 'green'], ['nice', 'sky', 'and', 'tree'], ['bird', 'tree']] tokenizer= Tokenizer() tokenizer.fit_on_texts(sentences) encode.. 더보기
[머신러닝] train_test_split : 비율 설정 방법 - test_size 이전 글에서는 train_test_split() 함수를 이용하여 데이터를 train data와 test data로 나눌 때, 무작위로 나눌지 순차적으로 나눌지 설정하는 방법에 대해 살펴보았는데요, 이번에는 train data와 test data로 나눌 때 비율을 지정해주는 방법에 대해서 살펴보도록 하겠습니다. - train_test_split : 비율 설정 방법 train_test_split() 함수를 사용하여 데이터를 train data와 test data로 나눌 때, 기본값은 75 : 25 비율로 나누어지게 됩니다. 하지만, 데이터가 많이 없다면 학습할 데이터를 늘려주어야 하며, 데이터가 매우 많다면 오버피팅 문제를 방지하기 위해 학습할 데이터를 조금 줄여주는 게 좋을 수 있습니다. 따라서 각 상황에.. 더보기
[데이터분석] 데이터프레임 : 특정 셀 배경색 설정하는 방법 - style, applymap 데이터프레임에서는 셀의 배경색, 폰트 사이즈, 폰트 색깔 등을 지정할 수 있는데요, 이번 글에서는 배경색을 설정하는 방법에 대해서 설명하도록 하겠습니다. - style.applymap() : 데이터프레임 셀 배경색 설정 style.applymap() 함수를 사용하여 셀 배경색을 쉽게 설정할 수 있는데요, 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. 이 데이터프레임에서 만약 1번째 행 'price' 칼럼에 있는 데이터 '2000'의 배경색을 빨간색으로 지정하고 싶다면 아래와 같이 코드를 입력하면 됩니다. def color_cell(x,color): color = f'background-color:{color}' return color df.style.applymap(color_cell,colo.. 더보기
[데이터분석] matplotlib : 그래프 눈금 간격 지정 방법 matplotlib 라이브러리는 그래프를 쉽게 그리도록 도와주는 라이브러리인데요, 기본적으로 그래프를 그리면 눈금이 자동으로 지정되어서 출력됩니다. 하지만 눈금이 원하는 그래프와 적절하지 않다면 이를 조정해야 하는데요, 눈금 간격을 지정하는 방법에 대해서 알아보도록 하겠습니다. - 그래프 눈금 간격 설정하기 먼저, matplotlib 라이브러리와 numpy 배열을 이용하여 간단한 그래프를 만들어보도록 하겠습니다. import numpy as np import matplotlib.pyplot as plt a = np.arange(0,10,1) #0,2,4,6,8 plt.plot(a,a,'bo') 출력된 결과를 보면, x축과 y축의 눈금 모두 2로 설정이 되어 있는데요, 눈금 간격을 설정하는 방법은 xtic.. 더보기
[데이터분석] 엑셀을 데이터 프레임으로 불러올 때 Sheet 설정하는 방법 - sheet_name 엑셀 파일을 데이터 프레임으로 불러올 때 보통 다음과 같이 코드를 입력하는데요, import pandas as pd file = r"C:\Users\Dinolabs\Desktop\데이터분석\sample.xlsx" #해당 경로 df = pd.read_excel(file) 이때 기본 값 설정으로, 엑셀 파일에서 첫 번째 시트인 Sheet1을 불러옵니다. 하지만 데이터 분석을 할 데이터가 Sheet2, Sheet3 또는 특정 이름의 시트에 있을 수 있는데요, sheet를 선택하기 위해선 pd.read_excel() 함수에 인자를 추가해서 입력해주어야 합니다. 바로, sheet_name 이라는 인자를 넣어주면 되는데요, 예를 들어 'Sheet2' 를 열고 싶다면 sheet_name="Sheet2" 를 인자로 넣.. 더보기
[데이터분석] matplotlib : grid 설정 / 해제하기 (가로 방향 / 세로 방향) 파이썬에서는 matplitlib 라이브러리를 이용하여 그래프를 쉽게 만들 수 있는데요, grid를 설정하는 방법에 대해 알아보도록 하겠습니다. 먼저, 아래와 같은 그래프가 있다고 가정하겠습니다. import matplotlib.pyplot as plt import numpy as np x = np.arange(3) item = ['coffee', 'tea', 'ade'] values = [2000, 4000, 5000] plt.bar(x, values) plt.xticks(x, item) plt.show() 출력된 그래프를 보면, grid가 설정되어 있는데요, grid에 대한 설정은 plt.grid(True) 또는 plt.grid(False) 코드를 통해 설정할 수 있습니다. 위 그래프에는 grid가 설.. 더보기
[파이썬] 주피터 노트북(jupyter notebook) - warning message 안 보이게 하는 방법 (+다시 켜는 방법) 주피터 노트북에서 코딩을 하다 보면, 빨간색으로 warning 창이 나오는 것을 볼 수 있습니다. 에러는 아니어서 문제가 되는 부분은 없지만, warning message가 길게 나오거나 크기를 차지하면 보는 데에 있어 신경 쓰일 수 있습니다. 이러한 warning message는 warnings 라이브러리에서 제공하는 모듈로 없앨 수 있는데요, 다음과 같이 코드를 작성하면 됩니다. import warnings warnings.filterwarnings(action='ignore') 위와 같이 코드를 실행하고, warning message가 나왔던 코드를 실행해보면 warning message가 나오지 않는 것을 확인하실 수 있습니다. 한편, warning message를 안 보이게 설정을 해놨는데, 필.. 더보기
[파이썬] 주피터 노트북(jupyter notebook)에서 행 번호(line number) 없애거나 나타나게 하려면? 주피터 노트북에는 각 셀마다 행 번호(line number)가 같이 보이는데요, 이 행 번호는 에러가 났을 때 위치를 쉽게 알 수 있도록 해주는 역할을 해주기도 합니다. 행 번호는 보여지는 것이 초기 설정 상태인데요, 단축키로 행 번호를 셀마다 안 보이게 할 수 있답니다. - 행 번호(line number) 설정 / 해제 : command mode >> 'L' 먼저, 주피터 노트북에는 edit mode와 command mode가 있는데요, edit mode는 왼쪽에 초록색 상태의 cell로 enter를 눌러 코드를 입력할 있는 상태를 말합니다. 반면 command mode는 esc를 누르거나 셀을 마우스로 클릭해서 파란색의 cell이 된 상태를 말합니다. 한편, 행 번호를 해제하는 것은 command m.. 더보기
[파이썬] 인수 없이 불러오는 함수 만들기 파이썬에서 함수를 만들 때, 대부분의 함수 모두 인수를 받도록 만드는데요, 인수가 필요 없고 그냥 불러오면 실행하는 함수를 만들 수도 있습니다. 아래 코드를 한 번 보도록 하겠습니다. def avg(list1) : avg_num = sum(list1)/len(list1) return avg_num list1 = [1, 2, 3, 4, 5] avg(list1) 위 코드는 평균을 구하는 함수로, 리스트형 데이터를 인수로 받습니다. 따라서 이 함수는 인수를 무조건 입력받아야 실행이 됩니다. 한편, 인수가 필요없는 함수는 다음과 같이 만들 수 있습니다. def new_function() : print("안녕하세요!") new_function() 안녕하세요! 인수가 필요없는 함수 'new_function'을 위와.. 더보기
[파이썬] 데이터프레임(dataframe) 인덱스 설정 / 해제 - set_index, reset_index 데이터프레임을 다룰 때, 인덱스를 설정하는 일이 참 많은데요, 인덱스를 설정하려면 set_index, 해제하려면 reset_index 라고 입력하면 됩니다. 아래의 코드를 보며 살펴보도록 하겠습니다. 1. set_index : 인덱스 설정하기 set_index() 함수를 이용하여 인덱스를 설정할 수 있는데요, 인덱스로 설정할 칼럼 이름을 괄호 안에 입력해주면 된답니다. import pandas as pd info = pd.DataFrame({'item' : ['coffee', 'tea', 'juice' ], 'price' : [3000, 4000, 5000], 'rating' : [4.0, 3.5, 3.7]}) info itempricerating 0coffee30004.0 1tea40003.5 2jui.. 더보기