본문 바로가기

구현

[에어] TextRank 로 크롤링한 뉴스 기사 요약 모델 만들기 (파이썬/Colab) 에어 프로젝트 #4 TextRank로 크롤링한 뉴스 기사 요약 모델 만들기 현재 온라인의 주요 플랫폼에서는 여러 분야의 다양한 정보들을 뉴스기사, 포스팅, 영상 등 다양한 형태로 제공하고 있다. 예를 들어, 금융 분야에 관심이 많아 평소에 뉴스 기사를 찾아서 읽는다고 한다면, 기사를 제공하는 플랫폼에 들어가서 '금융' 카테고리를 눌러 기사를 확인할 것이다. 하지만 매일 올라오는 기사는 한 분야에서도 수백건으로, 일일이 다 확인하는 데에는 분명 적지 않은 시간이 소요될 것이다. 이렇게 온라인 상에서 정보가 흘러넘치는 시대라도, 바쁜 삶을 살아가는 현대인들에게는 이마저도 일이 될 수 있다. 따라서 이번 에어 프로젝트에서는 네이버에서 제공하는 '금융-가장 많이 본 뉴스' 페이지에서 원하는 날짜의 기사를 크롤링.. 더보기
[자연어처리] 파이썬 코드로 패딩(Padding) 구현하기 - pad_sequences 패딩(Padding)이란, 데이터에 특정한 값을 채워서 데이터의 크기를 일괄적으로 조정하는 것을 말하는데요, 이때 특정한 값이 0이라면 이를 제로 패딩이라고 합니다. 한편, 케라스에서 패딩을 하기 위한 함수 'pad_sequences()'를 제공하는데요, 정수 인코딩이 된 값을 입력하면 패딩된 값으로 반환해줍니다. 한번 코드를 보면서 살펴보도록 하겠습니다. 1. 정수 인코딩하기 정수 인코딩을 하는 방법은 이전 글에서 자세하게 살펴보았는데요, 이에 대해서는 이전 글을 참고하시고, 바로 코드를 작성해보겠습니다. import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer sentences = [['place', 'tree'], ['.. 더보기
[머신러닝] 파이썬으로 softmax(소프트맥스) 함수 구현하기 word_encoded = tokenizer.texts_to_sequences(sentences) print(word_encoded) softmax(소프트맥스) 함수란 인풋값을 넣으면, 그 값들을 모두 0과 1 사이의 값으로 정규화를 해주는 함수를 말하는데요, 아래와 같은 연산을 가집니다. 이러한 softmax 함수는 확률처럼 모든 아웃풋 값을 더했을 때 1이 총합이라는 특징을 갖는 함수입니다. 따라서 시그모이드 함수의 경우 인풋이 하나일 때 사용되지만, 소프트맥스는 인풋이 여러 개일 때도 사용할 수 있는 함수입니다. 따라서 softmax 함수는 멀티 클래스 분류모델을 만들고자 할 때 이용하는 것이 좋습니다. 한편, 파이썬에서 특정 라이브러리에선 소프트맥스를 구현하는 함수를 제공하는데요, 이를 사용하지 .. 더보기
[머신러닝] MSE, MAE 뜻 & 구현 코드 1. MSE(Mean Squared Error) MSE란 Mean Squared Error의 약자로, 말 그대로 예측 값과 실제 값의 차이에 대한 제곱을 평균한 값을 말합니다. MSE의 경우 오차가 작으면 성능이 좋을 수 있지만, 과대적합이 될 수도 있습니다. 한편, MSE는 오차에 대해서 예측한 값이 실제 값보다 큰지, 작은지를 알 수 없다는 특징을 갖고 있습니다. - MSE : 코드로 구현하기 사이킷런(Scikit-learn) 패키지에서는 MSE를 구하는 라이브러리를 제공하는데요, 만약 실제 값 'true_y'와 예측한 값 'pred_y'의 MSE 값을 구하고 싶다면 다음과 같이 코드를 작성하면 됩니다. from sklearn.metrics import mean_squared_error #필요한 라이.. 더보기