본문 바로가기

저장

[머신러닝] 사이킷런(Scikit-learn) - iris(붓꽃) 데이터 불러와 데이터프레임으로 저장하기 사이킷런(Scikit-learn) 라이브러리는 의사결정 트리, 분류, 회귀 등의 알고리즘에 사용하기 적합한 함수 및 데이터를 제공하는 라이브러리로, 이번 글에서는 사이킷런에서 제공하는 데이터를 불러와 데이터프레임 형식으로 보는 방법에 대해서 살펴보도록 하겠습니다. - 사이킷런 데이터 불러오기 사이킷런 라이브러리에는 다양한 데이터가 들어있는데요, 그중 대표적인 데이터인 iris(붓꽃) 데이터를 가져와보겠습니다. from sklearn import datasets iris_dataset = dataset.iris() 먼저, sklearn 에서 데이터가 들어있는 datasets 라이브러리를 import 해준 다음, dataset.load_iris() 을 통해 iris 데이터를 가져와 iris_dataset 이.. 더보기
[데이터분석] 여러 리스트로 데이터 프레임 만들고 엑셀(excel)로 저장하기 1. 리스트로 데이터 프레임 만들기 여러 리스트가 있다면 이러한 리스트를 모아서 데이터프레임을 만들 수 있는데요, 아래와 같이 3개의 리스트가 있다고 가정해보겠습니다. item = ['아메리카노', '라떼', '차', '에이드', '쥬스'] price = [3500, 4000, 4500, 5000, 4000] rating = [4.2, 3.4, 4.4, 4.0, 3.9] 그리고나서, 위 리스트로 'cafe' 라는 이름의 데이터프레임을 만들고 출력해보겠습니다. import pandas as pd cafe = pd.DataFrame() cafe['항목'] = item cafe['가격'] = price cafe['별점'] = rating display(cafe) # output : 항목가격별점 0아메리카노35.. 더보기
[웹크롤링] 이미지 크롤링해서 저장하는 방법 - urlib 이미지를 크롤링해서 저장하고 싶다면 urlib 이라는 라이브러리를 통해 이미지를 저장할 수 있습니다. 한편, 이미지는 주로 'src' 태그에 'https://링크~.jpg' 이런 식으로 텍스트로 되어 있는데요, 이 텍스트를 가져온 다음, urlib를 이용하여 폴더에 저장하면 된답니다. 그렇다면, 예시로, 네이버 웹툰 홈페이지에서 아래 이미지와 같이 웹툰의 섬네일을 저장하는 방법에 대해서 살펴보겠습니다. 1. 월요웹툰 페이지 본문 가져오기 이미지를 저장하기 앞서, 먼저 월요웹툰 페이지를 열고, 해당 페이지의 본문을 가져오는 코드를 작성하도록 하겠습니다. from bs4 import BeautifulSoup import requests import urllib.request import urllib url .. 더보기
[웹크롤링] 크롤링한 데이터 메모장(텍스트 파일)에 저장하는 방법 크롤링한 데이터를 메모장과 같은 텍스트 파일에 저장하려면 sys library를 이용하면 되는데요, sys library에서 표준 출력 방향을 모니터가 아닌 다른 변수로 지정해주는 기능을 제공합니다. 즉, 모니터에 출력되는 것이 아니라 텍스트 파일에 저장해주고, 이를 다시 되돌려주기 위해 sys library를 사용하는 것입니다. 따라서 텍스트를 저장하기 전 다음과 같이 코드를 입력해 주어야 합니다. import sys orig_stdout = sys.stdout f = open(f_name, 'a', encoding='UTF-8') #f_name = 파일경로+파일이름.txt로 설정 필요 sys.stdout = f 두 번째 코드는 표준 출력 방향을 모니터가 아닌 다른 변수로 지정한다는 코드고, 세 번째 .. 더보기
[데이터분석] 데이터프레임 : 특정 칼럼(열)을 리스트로 바꾸는 방법 데이터프레임에서 특정 칼럼(열)에 있는 데이터를 리스트의 형식으로 만들고 싶을 수 있는데요, 이러한 경우 간단하게 for문을 이용해서 리스트로 만들 수 있답니다. 먼저, 아래와 같은 데이터프레임(df1)이 있다고 가정해보겠습니다. # itempricecount 0water10001 1milk20005 2coffee30002 3ade40001 4juice50003 5tea60002 이 데이터프레임에서 만약 'item' 칼럼에 있는 데이터들을 리스트로 만들고 싶다면 아래와 같이 for문을 사용해서 코드를 입력하면 됩니다. item_list = [] for i in df1['item'] : item_list.append(i) 먼저 비어있는 리스트를 만들고, for문에서 df의 'item' 칼럼에서 데이터를 하.. 더보기
[파이썬] 메모장 또는 텍스트 파일로 저장하기 텍스트 형식의 데이터를 처리한 뒤, 이를 메모장과 같은 텍스트 파일로 저장해야 될 때가 있는데요, 간단한 코드 작성법에 대해서 아래 예시를 들면서 설명하도록 하겠습니다. 우선, 문자열 데이터를 텍스트 파일로 저장하는 과정은 다음과 같습니다. 1. 텍스트 파일 생성 & 열기 2. 텍스트 입력하기 3. 닫기 이를 코드로 나타내 보도록 하겠습니다. text1 = "안녕하세요! 디노랩스는 컨텐츠 공유 플랫폼입니다." file = open("test_text1.txt", "w") file.write(text1) file.close() 우선, 저장할 텍스트를 "안녕하세요! 디노랩스는 컨텐츠 공유 플랫폼입니다." 라고 지정하였습니다. 그리고나서, 'test_text1.txt" 라는 텍스트파일을 생성했고, 이를 작성하.. 더보기
[파이썬] 데이터 프레임(dataframe), csv 또는 엑셀 파일로 저장하기 데이터프레임을 통해 데이터를 다룬 뒤, 이를 저장하기 위해선 csv 파일 또는 엑셀(excel, xls) 파일로 저장해야 하는데요, 'to_csv', 'to_excel' 이라는 모듈을 이용하여 데이터프레임을 각 csv 파일, 엑셀 파일로 저장할 수 있습니다. 1. to_csv : csv 파일로 저장하기 데이터프레임을 csv 파일로 저장해주는 'to_csv' 는 데이터프레임.to_csv("저장할 경로+파일명.csv") 와 같이 입력하면 되는데요, 만약 'subject' 라는 이름의 데이터프레임이 있을 때, 이 데이터프레임을 test 폴더에 "dataframe1" 이라는 이름의 csv 파일로 저장하려면 다음과 같이 코드를 입력하면 됩니다. subject.to_csv("c:\\test\\dataframe1.c.. 더보기