목록Home (73)
짜리몽땅 매거진
Tableau에서는 다양한 워크시트로 만든 각각의 시각화를 하나의 대시보드에 담아 조회자에게 분석의 용이함을 제공할 수 있습니다. 미리 제작해둔 3가지의 워크시트를 하나의 대시보드에 담고 집합 동작 기능을 통해 대시보드 상에서 클릭과 마우스오버로 선택 값별 데이터 조회가 가능하게끔 구현하는 과정을 살펴보겠습니다. 대시보드의 집합 동작 활용 과정을 알고자 '슈퍼스토어 주문+반품' 추출 데이터를 사용해 '지역에 따른 전체 대비 매출 현황과 제품 중분류 별 매출' 대시보드를 제작해보려 합니다.0. 기초 작업대시보드 환경을 세팅하기 위해 미리 3가지의 워크시트를 제작했습니다. 1. 대시보드 생성앞서 제작한 3가지 시각화를 하나의 대시보드에 담습니다. 하단 툴바의 새 대시보드를 클릭하면 대시보드 시트가 생성됩니다..
Tableau에서는 Prep Builder와 다른 전처리 언어를 사용해 가공한 데이터를 바탕으로 다양한 시각화를 진행할 수 있습니다. 하지만 가공한 데이터의 칼럼 중 시각화에 적용할 필드가 없다면 다시 전처리를 반복해야 할까요? 그렇지 않습니다. Tableau Desktop은 매개 변수와 계산된 필드 기능을 제공해 원리만 이해하면 쉬운 함수식으로 새로운 필드를 생성할 수 있습니다. 매개 변수와 계산된 필드의 활용 과정을 알고자 '2호선 역별 승하차인원수' 추출 데이터를 사용해 '일별 2호선 평균 승하차승객수' 맵 차트를 시각화해보려 합니다. 0. 기초 작업 시각화 환경을 세팅하기 위해 데이터를 Tableau Desktop에 연결합니다. 만약 데이터가 엑셀 혹은 csv파일이라면 별도로 연결을 시도하면되고,..
그동안 배운 pandas 문법을 사용해 마켓컬리 리뷰로부터 자주 언급되는 단어를 추출해 인사이트를 도출하기 위한 전처리 작업을 진행해보았습니다. 시각화는 각 토큰화 단어와 전체 문장 길이의 직관적 비교를 위한 [히스토그램]과 최빈 노출 단어 파악을 위한 [워드클라우드]를 출력했습니다. 각 시각화 그래프는 어떻게 출력됐으며, 어떤 인사이트를 뽑아낼 수 있는지 차근히 살펴보겠습니다. (1) 기초 작업 import pandas as pd data = pd.read_csv('마켓컬리 리뷰.csv') 우선 판다스를 import하고 마켓컬리 리뷰 데이터를 불러옵니다. 데이터는 이렇게 5개의 칼럼과 490개의 행으로 구성되어있는 것을 알 수 있습니다. df = data[['상세제품명','리뷰내용']] df['리뷰내용..
반복문 복습과 데이터프레임 적용 반복문 : 데이터프레임 전처리 과정에서 다양한 데이터를 빠르게 전처리하기 위해서는 반복문이 필요하다! import pandas as pd df = pd.read_csv('mpg.csv') df manufacturermodeldisplyearcyltransdrvctyhwyflcategory 0audia41.819994auto(l5)f1829pcompact 1audia41.819994manual(m5)f2129pcompact 2audia42.020084manual(m6)f2031pcompact 3audia42.020084auto(av)f2130pcompact 4audia42.819996auto(l5)f1626pcompact ...............................
데이터 변수의 개념으로 바라보면 여러가지 정의된 것들이 있다. 양적변수 : 양을 표현하는 것, 학교 시험 점수나, 우리 키, 몸무게 질적변수 : 안경을 쓴 유무, 서베이의 만족도 조사 점수 변수를 가지고 척도를 생각해 보자! 간격척도 : 온도 ( 30도와 60도가 정말 2배의 차이인 것이냐? 절대 영점의 유무 ) 비례척도 : 길이 ( 2배 차이가 많다. 5cm 10cm는 2배의 차이 ) 명의척도 : 성별, 학생번호, 전화번호, 주민번호 순서척도 : 시험 점수 등수 ( 반별 등수 ) 이산형 : 0,1 이진분류, 만족도 점수 같은, 여러가지 값이 있지만 -> 서로 인접한 숫자 사이의 값이 존재하지 않는다.0, 1 두 개만 존재하지 1.5 x 없다. 연속형 : 연속적인 값 0,1 기준으로 보면 무한대 0.00..
데이터 분석에 필요한 기초 과정 데이터 분석을 진행하기 위해서 ML/DL 머신러닝 기초, 기초통계 분석 공부가 필요 이 두 개를 배우기 위해서는 데이터프레임의 이해와 데이터 분석의 이해가 필요하다. 데이터프레임이란? : 기존 패키지를 사용하지 않고 리스트 형식으로 데이터를 담는 것 2차원 : 가로와 세로 라는 공간/x축과 y축의 공간/행렬의 개념 데이터프레임의 개념으로 접근하면 행은 인덱스, 열은 컬럼이 된다. 컬럼이 존재하는 건 결국 데이터의 성질이 형성이 된다. 데이터프레임을 불러오기 위해서는 ## pandas 가장 많이 사용 : 데이터프레임, 시리즈 구조 데이터를 가공, 전처리 하는 패키지, 금융데이터 처음 시작되었음 ## numpy도 많이 사용 : 공학적인 수학 관련 패키지들 연산이나 브로드캐스팅..
https://public.tableau.com/app/profile/.k00keyesm/viz/SeoulStore/1 Seoul Store 월 수익 비교 Seoul Store 월 수익 비교 public.tableau.com 인사이트 1. 누적 합계 수익이다보니 월/전월 모두 우상향하는 그래프를 보이고 있습니다. 2. 누적 합계 수익의 격차가 점점 벌어지는 것을 보아 날짜(일)이 지날수록, 즉 월말로 갈수록 수익이 증가하는 추세를 보입니다. 한계점 전체 월마다 비교가 아닌, 오직 전월과의 비교여서 전체 연도 내에서 수익 비교는 어렵습니다. 어려웠던 점 매개변수, 불연속형 등 시각화 차트를 만들 때 설정의 절차와 필요성에 대해 더 깊은 공부가 필요할 것 같습니다.
인사이트1. 전체적으로 날짜가 지날수록 우상향하는 주가를 보이고 있습니다. 2. 1월 27일 시작으로 3월 14일까지는 전반적으로 우하향하는 주가를 보이고 있습니다. 3. 특히 5월 19일 주가가 급격하게 상승합니다. 6-7월 2달 간 높은 수치를 보이다가 8월을 기점으로 다시 하향세를 보이고 있습니다. 5월 19일에 반등한 이유는 외국인 투자자 5300억어치 순매수하는 매수세를 보이는 것이 큰 영향을 끼친 것으로 파악됩니다. 이는 메모리 반도체 업황이 반등할 것이라는 기대감이 반영되는 것이라 보았습니다.참고 기사 : 외국인 하루 5300억 사들여...삼성전자 주가 올 최고한계점주가 변화의 양상이 비슷한지, 다른지 파악하기 위해 삼성전자와 같은 다른 우량주의 주가와 비교하는 데이터가 있으면 더 좋을 것 ..