목록Data/Python (29)
짜리몽땅 매거진
우리가 흔히 분석하고 시각화, 더 나아가 모델링을 하는 과정까지 이어나가기 위해서는 앞단에서 데이터를 분석할 수 있는 형태로 잘 가공하고 전처리해야한다. 전처리해야하는 요소는 여러가지가 있지만 그 중에서 데이터프레임에 빈칸/None/NaN 으로 표시되는 결측값(Missing Value) 처리에 대해 알아보고자 한다. 실제 데이터는 우리 입맛에 맞게 원하는 변수(=칼럼), 결측치 없이 모든 값이 들어가 있는 행 등 이미 가공된 형태로 제공되지 않는다. 전처리되지 않은 데이터를 분석하거나 모델에 적용하게 되면 그 결과는 엉망이 되어버린다. 따라서 오늘 다루고자 하는 '결측값'은 꼭 적절한 방법으로의 처리가 필요하다. 0. 결측값의 종류 - MCAR : Missing Completely at Random (완..

그동안 배운 pandas 문법을 사용해 마켓컬리 리뷰로부터 자주 언급되는 단어를 추출해 인사이트를 도출하기 위한 전처리 작업을 진행해보았습니다. 시각화는 각 토큰화 단어와 전체 문장 길이의 직관적 비교를 위한 [히스토그램]과 최빈 노출 단어 파악을 위한 [워드클라우드]를 출력했습니다. 각 시각화 그래프는 어떻게 출력됐으며, 어떤 인사이트를 뽑아낼 수 있는지 차근히 살펴보겠습니다. (1) 기초 작업 import pandas as pd data = pd.read_csv('마켓컬리 리뷰.csv') 우선 판다스를 import하고 마켓컬리 리뷰 데이터를 불러옵니다. 데이터는 이렇게 5개의 칼럼과 490개의 행으로 구성되어있는 것을 알 수 있습니다. df = data[['상세제품명','리뷰내용']] df['리뷰내용..
반복문 복습과 데이터프레임 적용 반복문 : 데이터프레임 전처리 과정에서 다양한 데이터를 빠르게 전처리하기 위해서는 반복문이 필요하다! import pandas as pd df = pd.read_csv('mpg.csv') df manufacturermodeldisplyearcyltransdrvctyhwyflcategory 0audia41.819994auto(l5)f1829pcompact 1audia41.819994manual(m5)f2129pcompact 2audia42.020084manual(m6)f2031pcompact 3audia42.020084auto(av)f2130pcompact 4audia42.819996auto(l5)f1626pcompact ...............................
데이터 변수의 개념으로 바라보면 여러가지 정의된 것들이 있다. 양적변수 : 양을 표현하는 것, 학교 시험 점수나, 우리 키, 몸무게 질적변수 : 안경을 쓴 유무, 서베이의 만족도 조사 점수 변수를 가지고 척도를 생각해 보자! 간격척도 : 온도 ( 30도와 60도가 정말 2배의 차이인 것이냐? 절대 영점의 유무 ) 비례척도 : 길이 ( 2배 차이가 많다. 5cm 10cm는 2배의 차이 ) 명의척도 : 성별, 학생번호, 전화번호, 주민번호 순서척도 : 시험 점수 등수 ( 반별 등수 ) 이산형 : 0,1 이진분류, 만족도 점수 같은, 여러가지 값이 있지만 -> 서로 인접한 숫자 사이의 값이 존재하지 않는다.0, 1 두 개만 존재하지 1.5 x 없다. 연속형 : 연속적인 값 0,1 기준으로 보면 무한대 0.00..
데이터 분석에 필요한 기초 과정 데이터 분석을 진행하기 위해서 ML/DL 머신러닝 기초, 기초통계 분석 공부가 필요 이 두 개를 배우기 위해서는 데이터프레임의 이해와 데이터 분석의 이해가 필요하다. 데이터프레임이란? : 기존 패키지를 사용하지 않고 리스트 형식으로 데이터를 담는 것 2차원 : 가로와 세로 라는 공간/x축과 y축의 공간/행렬의 개념 데이터프레임의 개념으로 접근하면 행은 인덱스, 열은 컬럼이 된다. 컬럼이 존재하는 건 결국 데이터의 성질이 형성이 된다. 데이터프레임을 불러오기 위해서는 ## pandas 가장 많이 사용 : 데이터프레임, 시리즈 구조 데이터를 가공, 전처리 하는 패키지, 금융데이터 처음 시작되었음 ## numpy도 많이 사용 : 공학적인 수학 관련 패키지들 연산이나 브로드캐스팅..
import pandas, re join, apply, split 실전 텍스트 분석 응용 python 문법을 응용하여 분석해 보자! pip install pandas Requirement already satisfied: pandas in c:\users\rnrwnsgh\anaconda3\lib\site-packages (1.4.4) Requirement already satisfied: pytz>=2020.1 in c:\users\rnrwnsgh\anaconda3\lib\site-packages (from pandas) (2022.1) Requirement already satisfied: numpy>=1.18.5 in c:\users\rnrwnsgh\anaconda3\lib\site-packages ..
모듈 패키지 우리가 당연하게 사용하는 것들이 결국 다 만들어 사용하는 것 직접 우리도 만들 수 있고, 패키지 ,내장 함수를 만들 수 있다. 패키지라고 하는 것은 -> 여러가지 기능 묶은 것들을 말한다. 모듈 특정 기능에 대해서 작성해 둔 것들 -> print 에 대한 기능들 대부분 다 만들어진 모듈을 사용하는 것 이 모듈이 내 경로에 없으면 부를 수 없다. 에러가 나게 되고 이 모듈을 부르기 위해서 install 작업 등을 진행해서 편하게 불러올 수 있게 만든다. 처음에 에러가 많이 나는 경우가 패키지가 없는데 불러오는 것에서부터 에러가 많이난다. import 모듈 import 모듈 #수학 모듈 패키지 import math #수학 모듈 패키지 import math math.pi #파이값 부르기 3.141..
정규표현식 match/search/findall 정규표현식 (regular expression)¶ 일정한 문자열의 규칙이나 패턴을 표현하는 방법 find, 기타 문자열 문법 있는데이 문법은 한정되어 있는 부분이 있다. 문법으로 만들 수 있는 규칙이 있지만, 문법으로 만들 수 없는 규칙 이런 규칙, 패턴은 -> 분석가가 원하는 상황에서 나오게 된다. 문자열 데이터를 전처리하는데, 주민등록번호 앞자리와 뒤에 한자리만 추출하고 싶다. 000000-0 패턴 회원가입시 아이디에 대한 규칙 대문자는 사용x 처음에는, 특수문자사용불가-> 이런 데이터를 추출해야 한다. 정규표현식이 다양한 패턴들을 직접 본인이 만들어서 추출할 수 있게 한다. 정규표현식의 원리를 알면 정규표현식들을 더하고, 더해서 새로운 패턴을 만들 수..