본문 바로가기

찾기

[머신러닝] 데이터프레임 : Null 값이 있는 행 확인하고, 삭제하는 방법 머신러닝 학습을 하기 전 데이터 전처리를 할 때, 데이터프레임 상에서 Null 값이 있는 행이 있는지 확인하고, 또 존재한다면 삭제하고 싶을 때, 코드를 어떻게 작성해야 하는지 아래 코드를 보면서 살펴보도록 하겠습니다. 1. Null 값 확인하기 먼저, 다음과 같이 Null 값이 있는 데이터프레임이 있다고 가정해보겠습니다. # itempricecount 0water1000.01.0 1milk2000.0NaN 2coffee3000.02.0 3adeNaN1.0 4latte5000.03.0 5tea6000.02.0 위 데이터프레임을 보면 각각 1행과 3행에 NaN 으로 Null 값이 있는 것을 확인할 수 있는데요, 이 데이터프레임의 데이터는 매우 작아서 어디에 Null 값이 있는지 바로 알 수 있지만, 데이터.. 더보기
[웹크롤링] 원하는 태그 찾기 + 텍스트 추출 - find 웹 크롤링을 할 때, 가장 많이 사용하는 함수 중 하나가 바로 find() 함수인데요, 아래 코드를 보면서 find() 함수에 대해 살펴보도록 하겠습니다. 1. find() : 태그 찾기 먼저, 아래와 같은 html이 있다고 가정해보겠습니다. html1=''' hello! ''' 위 html에서 만약 'hello!' 라는 텍스트를 찾고 싶을 때, 이 텍스트가 있는 태그를 알아야 하는데요, 해당 텍스트는 태그에 있는 것을 알 수 있습니다. 이제 이 텍스트를 찾기 위해 find() 함수를 사용하면 되는데요, find 함수 안에 해당 태그 명을 입력하면 됩니다. soup = BeautifulSoup(html1, 'html.parser') #html.parser는 html 분석 도구 soup.find('div'.. 더보기
[웹크롤링] 특정 element 접근하는 코드 6가지 + 클릭하는 방법 웹크롤링을 할 때, 특정 버튼을 클릭하거나 특정 element에 접근할 때 사용할 수 있는 방법이 크게 6가지가 있는데요, 하나씩 살펴보도록 하겠습니다. - find_element_by_ : 특정 element에 접근하기 특정 element에 접근하기 위한 방법으로 'html name', 'id name', 'xpath', 'css', 'class name', 'tag name'을 사용하는 방법이 있는데요, 특정 element에 접근하는 코드인 find_element_by_ 와 결합해 사용하면 됩니다. 결합한 코드는 다음과 같습니다. 1. html name 사용 find_element_by_name('html name') 2. id name 사용 find_element_by_id("html id name.. 더보기
[데이터분석] 데이터프레임 : 중복된 행 찾기 & 개수 - duplicated(), sum() 이전 글에서는 데이터 프레임에서 결측치가 있는 행을 찾는 함수 isnull()과 칼럼마다 결측치의 개수를 구하는 함수 isnull().sum() 함수에 대해 알아보았는데요, 이번에는 중복된 행을 찾는 함수 duplicated()와 그 개수를 구하는 방법에 대해서 살펴보도록 하겠습니다. 1. duplicated() : 중복된 행 찾기 먼저, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. tempitemcountprice 0hotcoffee13000 1icejuice54000 2iceade25000 3hotcoffee13000 4hottea34000 5icewater21000 위 데이터프레임을 보면, 0번째 행과 3번째 행의 데이터가 겹치는 것을 볼 수 있는데요, 한 번 duplicated() 함수를 .. 더보기
[파이썬] 딕셔너리 : key로 value 값을 찾으려면? 딕셔너리 데이터를 다룰 때, key를 이용하여 value 값을 찾는 경우가 많은데요, price = {'coffee' : 3000, 'juice' : 4000 } 위와 같이 'price' 딕셔너리가 있고, 'coffee'에 해당하는 value를 알고 싶을 때 다음과 같이 코드를 작성하면 됩니다. price['coffee'] 3000 더보기