목록Data (69)
짜리몽땅 매거진
반복문 복습과 데이터프레임 적용 반복문 : 데이터프레임 전처리 과정에서 다양한 데이터를 빠르게 전처리하기 위해서는 반복문이 필요하다! import pandas as pd df = pd.read_csv('mpg.csv') df manufacturermodeldisplyearcyltransdrvctyhwyflcategory 0audia41.819994auto(l5)f1829pcompact 1audia41.819994manual(m5)f2129pcompact 2audia42.020084manual(m6)f2031pcompact 3audia42.020084auto(av)f2130pcompact 4audia42.819996auto(l5)f1626pcompact ...............................
데이터 변수의 개념으로 바라보면 여러가지 정의된 것들이 있다. 양적변수 : 양을 표현하는 것, 학교 시험 점수나, 우리 키, 몸무게 질적변수 : 안경을 쓴 유무, 서베이의 만족도 조사 점수 변수를 가지고 척도를 생각해 보자! 간격척도 : 온도 ( 30도와 60도가 정말 2배의 차이인 것이냐? 절대 영점의 유무 ) 비례척도 : 길이 ( 2배 차이가 많다. 5cm 10cm는 2배의 차이 ) 명의척도 : 성별, 학생번호, 전화번호, 주민번호 순서척도 : 시험 점수 등수 ( 반별 등수 ) 이산형 : 0,1 이진분류, 만족도 점수 같은, 여러가지 값이 있지만 -> 서로 인접한 숫자 사이의 값이 존재하지 않는다.0, 1 두 개만 존재하지 1.5 x 없다. 연속형 : 연속적인 값 0,1 기준으로 보면 무한대 0.00..
데이터 분석에 필요한 기초 과정 데이터 분석을 진행하기 위해서 ML/DL 머신러닝 기초, 기초통계 분석 공부가 필요 이 두 개를 배우기 위해서는 데이터프레임의 이해와 데이터 분석의 이해가 필요하다. 데이터프레임이란? : 기존 패키지를 사용하지 않고 리스트 형식으로 데이터를 담는 것 2차원 : 가로와 세로 라는 공간/x축과 y축의 공간/행렬의 개념 데이터프레임의 개념으로 접근하면 행은 인덱스, 열은 컬럼이 된다. 컬럼이 존재하는 건 결국 데이터의 성질이 형성이 된다. 데이터프레임을 불러오기 위해서는 ## pandas 가장 많이 사용 : 데이터프레임, 시리즈 구조 데이터를 가공, 전처리 하는 패키지, 금융데이터 처음 시작되었음 ## numpy도 많이 사용 : 공학적인 수학 관련 패키지들 연산이나 브로드캐스팅..
https://public.tableau.com/app/profile/.k00keyesm/viz/SeoulStore/1 Seoul Store 월 수익 비교 Seoul Store 월 수익 비교 public.tableau.com 인사이트 1. 누적 합계 수익이다보니 월/전월 모두 우상향하는 그래프를 보이고 있습니다. 2. 누적 합계 수익의 격차가 점점 벌어지는 것을 보아 날짜(일)이 지날수록, 즉 월말로 갈수록 수익이 증가하는 추세를 보입니다. 한계점 전체 월마다 비교가 아닌, 오직 전월과의 비교여서 전체 연도 내에서 수익 비교는 어렵습니다. 어려웠던 점 매개변수, 불연속형 등 시각화 차트를 만들 때 설정의 절차와 필요성에 대해 더 깊은 공부가 필요할 것 같습니다.
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/lKKGZ/btssHFmybDk/X3yINCJv3A8WdZTIR763z0/img.png)
인사이트1. 전체적으로 날짜가 지날수록 우상향하는 주가를 보이고 있습니다. 2. 1월 27일 시작으로 3월 14일까지는 전반적으로 우하향하는 주가를 보이고 있습니다. 3. 특히 5월 19일 주가가 급격하게 상승합니다. 6-7월 2달 간 높은 수치를 보이다가 8월을 기점으로 다시 하향세를 보이고 있습니다. 5월 19일에 반등한 이유는 외국인 투자자 5300억어치 순매수하는 매수세를 보이는 것이 큰 영향을 끼친 것으로 파악됩니다. 이는 메모리 반도체 업황이 반등할 것이라는 기대감이 반영되는 것이라 보았습니다.참고 기사 : 외국인 하루 5300억 사들여...삼성전자 주가 올 최고한계점주가 변화의 양상이 비슷한지, 다른지 파악하기 위해 삼성전자와 같은 다른 우량주의 주가와 비교하는 데이터가 있으면 더 좋을 것 ..
import pandas, re join, apply, split 실전 텍스트 분석 응용 python 문법을 응용하여 분석해 보자! pip install pandas Requirement already satisfied: pandas in c:\users\rnrwnsgh\anaconda3\lib\site-packages (1.4.4) Requirement already satisfied: pytz>=2020.1 in c:\users\rnrwnsgh\anaconda3\lib\site-packages (from pandas) (2022.1) Requirement already satisfied: numpy>=1.18.5 in c:\users\rnrwnsgh\anaconda3\lib\site-packages ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/uBhgT/btsswidVYzI/Lz2f7lK2JXI5atk3h6Xbz0/img.png)
https://public.tableau.com/app/profile/.k00keyesm/viz/_16932070444250/1 인사이트 1. 전체적으로 회차가 지날수록 우상향하는 시청률을 보이고 있습니다. 2. 금요일보다는 주말의 시청률이 더 높은데, 주말 저녁 드라마인만큼 금요일에는 외출이 잦고, 일요일은 다음주를 준비하기 위해 쉬는 경우가 많아 더 시청률이 높아보입니다. 3. 전체적으로 우상향하다가 13, 14회차에 소폭 시청률이 감소합니다. 해당 날짜에 타방송사에 더 시청자가 쏠렸거나, 드라마가 시청자에게 기대이하로 다가왔을 가능성이 있습니다. 4. 요일별 드라마 전·후 광고 노출의 효용성을 파악할 수 있습니다. 일요일에 시청률이 높으므로 광고사는 일요일에 드라마 전후에 광고를 노출해야 가장 이익..
모듈 패키지 우리가 당연하게 사용하는 것들이 결국 다 만들어 사용하는 것 직접 우리도 만들 수 있고, 패키지 ,내장 함수를 만들 수 있다. 패키지라고 하는 것은 -> 여러가지 기능 묶은 것들을 말한다. 모듈 특정 기능에 대해서 작성해 둔 것들 -> print 에 대한 기능들 대부분 다 만들어진 모듈을 사용하는 것 이 모듈이 내 경로에 없으면 부를 수 없다. 에러가 나게 되고 이 모듈을 부르기 위해서 install 작업 등을 진행해서 편하게 불러올 수 있게 만든다. 처음에 에러가 많이 나는 경우가 패키지가 없는데 불러오는 것에서부터 에러가 많이난다. import 모듈 import 모듈 #수학 모듈 패키지 import math #수학 모듈 패키지 import math math.pi #파이값 부르기 3.141..