본문 바로가기

지정

[데이터 리뷰] 경상북도 공공데이터(2) - 경상북도 지정문화재 지정/승격 정보 데이터 데이터 리뷰 : 데이터 대신 읽어드립니다! #64 경상북도 공공데이터(2) - 경상북도 지정문화재 지정 정보 데이터 경상북도는 과거 삼국시대 때 신라의 역사와 문화가 자리 잡았던 곳으로, 경주의 불국사, 첨성대, 안동의 봉정사와 법흥사지 칠층 전탑, 영주 부석사 등 정말 많은 문화재가 있답니다. 또한 그 가치를 인정받아 최근에 국가무형문화재나 보물로 승격한 문화재들이 있다고 합니다. 이와 관련하여 경상북도 공공 데이터 플랫폼에서는 '경상북도 지정문화재 지정 정보' 데이터와 '경상북도 지정문화재 승격 정보' 데이터를 제공하고 있습니다. 그럼 이번 데이터 리뷰기에서는 이 둘의 데이터가 어떻게 이루어져 있는지 살펴보고, 어떻게 분석 및 활용하면 좋을지 생각해보도록 하겠습니다! 경상북도 지정문화재 지정/승격 정.. 더보기
[자연어처리] 패딩(Padding) : 길이 지정 방법 - maxlen (파이썬) 이전 글들에서 패딩을 하는 기본적인 방법과, 제로 패딩을 할 때 0을 뒤로 채우는 방법 등에 대해서 살펴보았는데요, 이번에는 패딩을 할 때, 길이를 지정하는 방법에 대해서 살펴보도록 하겠습니다. 먼저, 기본적으로 패딩을 하는 코드를 작성하고, 그 결과를 보겠습니다. import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer sentences = [['place', 'tree'], ['tree', 'nice', 'green'], ['nice', 'sky', 'and', 'tree'], ['bird', 'tree']] tokenizer= Tokenizer() tokenizer.fit_on_texts(sentences) encode.. 더보기
[머신러닝] train_test_split : 비율 설정 방법 - test_size 이전 글에서는 train_test_split() 함수를 이용하여 데이터를 train data와 test data로 나눌 때, 무작위로 나눌지 순차적으로 나눌지 설정하는 방법에 대해 살펴보았는데요, 이번에는 train data와 test data로 나눌 때 비율을 지정해주는 방법에 대해서 살펴보도록 하겠습니다. - train_test_split : 비율 설정 방법 train_test_split() 함수를 사용하여 데이터를 train data와 test data로 나눌 때, 기본값은 75 : 25 비율로 나누어지게 됩니다. 하지만, 데이터가 많이 없다면 학습할 데이터를 늘려주어야 하며, 데이터가 매우 많다면 오버피팅 문제를 방지하기 위해 학습할 데이터를 조금 줄여주는 게 좋을 수 있습니다. 따라서 각 상황에.. 더보기
[웹크롤링] 탭(tab) 변경 방법 여러 탭을 만들어서 동시에 크롤링을 수행하도록 할 수 있는데요, 만약 탭을 변경해야 한다면 코드를 어떻게 작성해야 할까요? 바로, swith_to.window() 라는 함수를 이용하면 되는데요, 아래 코드를 보면서 살펴보도록 하겠습니다. swith_to.window() 함수를 사용하기 앞서, 웹 드라이버 설정을 해주어야 하는데요, 아래와 같이 설정을 해주도록 하겠습니다. path = "c:/temp/chromedriver_240/chromedriver.exe" ###자신의 chomedriver의 경로 위치 driver = webdriver.Chrome(path) 웹드라이버를 'driver' 라는 변수에 저장해주었는데요, 각자 코드에 맞게 입력하시면 됩니다. 한편, swith_to.window() 함수는 .. 더보기
[데이터분석] matplotlib : 축 범위 지정하는 방법 - axis() matplotlib 라이브러리를 이용하면 그래프를 쉽고 간단하게 그릴 수 있는데요, matplotlib 라이브러리에서는 x축과 y축의 범위를 지정하는 axis() 함수를 제공합니다. 그렇다면 axis() 함수로 어떻게 축 범위를 지정하는지 살펴보도록 하겠습니다. - axis() : 축 범위 지정하기 먼저, 간단한 그래프를 그려보도록 하겠습니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 8, 27, 64, 125] plt.plot(x,y) plt.show() 이 그래프를 보면, x축은 1에서 5까지, y축은 0에서 120까지로 범위가 지정되어 있는데요, 축 범위를 x축은 0에서 6까지, y축은 0에서 150까지로 axis() 함수를 이용해서.. 더보기
[데이터분석] matplotlib : 그래프 특정 구간 색칠하기 - fill_between() matplotlib 라이브러리를 이용하여 그래프를 쉽고 간단하게 그릴 수 있는데요, matplotlib 라이브러리에서는 선그래프에서 특정 구간을 색칠해서 나타내는 함수 fill_between()을 제공합니다. 한 번 코드를 보면서 살펴보도록 하겠습니다. - fill_between() : 그래프 특정 구간 채우기 먼저, 그래프를 하나 만들어 보도록 하겠습니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 8, 27, 64, 125] plt.xticks(np.arange(0,6,1)) plt.plot(x,y) plt.show() 만약 이 그래프에서 x축의 2와 3 사이의 영역을 색칠하고 싶다면 fill_between() 함수를 사용하면 되는데요,.. 더보기
[데이터분석] 데이터프레임 : 특정 셀 배경색 설정하는 방법 - style, applymap 데이터프레임에서는 셀의 배경색, 폰트 사이즈, 폰트 색깔 등을 지정할 수 있는데요, 이번 글에서는 배경색을 설정하는 방법에 대해서 설명하도록 하겠습니다. - style.applymap() : 데이터프레임 셀 배경색 설정 style.applymap() 함수를 사용하여 셀 배경색을 쉽게 설정할 수 있는데요, 먼저 아래와 같은 데이터프레임이 있다고 가정해보겠습니다. 이 데이터프레임에서 만약 1번째 행 'price' 칼럼에 있는 데이터 '2000'의 배경색을 빨간색으로 지정하고 싶다면 아래와 같이 코드를 입력하면 됩니다. def color_cell(x,color): color = f'background-color:{color}' return color df.style.applymap(color_cell,colo.. 더보기
[데이터분석] matplotlib : 그래프 눈금 간격 지정 방법 matplotlib 라이브러리는 그래프를 쉽게 그리도록 도와주는 라이브러리인데요, 기본적으로 그래프를 그리면 눈금이 자동으로 지정되어서 출력됩니다. 하지만 눈금이 원하는 그래프와 적절하지 않다면 이를 조정해야 하는데요, 눈금 간격을 지정하는 방법에 대해서 알아보도록 하겠습니다. - 그래프 눈금 간격 설정하기 먼저, matplotlib 라이브러리와 numpy 배열을 이용하여 간단한 그래프를 만들어보도록 하겠습니다. import numpy as np import matplotlib.pyplot as plt a = np.arange(0,10,1) #0,2,4,6,8 plt.plot(a,a,'bo') 출력된 결과를 보면, x축과 y축의 눈금 모두 2로 설정이 되어 있는데요, 눈금 간격을 설정하는 방법은 xtic.. 더보기
[데이터분석] 데이터프레임 - 칼럼(열) 순서 바꾸기 데이터프레임은 칼럼(열)이 있는데요, 이 칼럼의 순서를 바꾸고 싶을 수 있습니다. 칼럼을 바꾸는 방법은 매우 쉬운데요, 우선, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. df = pd.DataFrame( {'name': ['coffee', 'tea', 'juice','milk', 'a.breeze'], 'price': [3000, 4000, 5000, 2000, 2000], 'rating': [4, 3.5, 3.7, 3, 2], 'category': [1,2,3,4,4]}) display(df) namepriceratingcategory 0coffee30004.01 1tea40003.52 2juice50003.73 3milk20003.04 4a.breeze 20002.04 위 데이터프레임을 보면.. 더보기
[파이썬] 문자열, 공백/빈칸 기준으로 나누기, 횟수 지정 - split split() 함수는 문자열에서 특장 문자를 기준으로 좌, 우로 끊은 뒤, 리스트로 반환해주는 함수인데요, str.split('기준문자') 처럼 코드를 입력하면 됩니다. 이때 기준문자는 사라집니다. 한편, '기준문자'를 공백/빈칸(" ") 으로 입력하면 공백 기준으로 문자열을 나눌 수 있게 되는데요, 다음과 같이 코드를 입력하면 됩니다. str1 = '홍길동 010-1234-1234 서울종로구 남' str1_list = str1.split(" ") print(str1_list) ['홍길동', '010-1234-1234', '서울종로구', '남'] 위 결과를 보면 빈칸 기준으로 문자열이 나누어진 것을 확인할 수 있습니다. 한편, split(" ") 은 모든 " "에 대해서 나누어졌는데, 한 번만 적용시켜야.. 더보기