목록2024/03 (4)
짜리몽땅 매거진
우리가 흔히 분석하고 시각화, 더 나아가 모델링을 하는 과정까지 이어나가기 위해서는 앞단에서 데이터를 분석할 수 있는 형태로 잘 가공하고 전처리해야한다. 전처리해야하는 요소는 여러가지가 있지만 그 중에서 데이터프레임에 빈칸/None/NaN 으로 표시되는 결측값(Missing Value) 처리에 대해 알아보고자 한다. 실제 데이터는 우리 입맛에 맞게 원하는 변수(=칼럼), 결측치 없이 모든 값이 들어가 있는 행 등 이미 가공된 형태로 제공되지 않는다. 전처리되지 않은 데이터를 분석하거나 모델에 적용하게 되면 그 결과는 엉망이 되어버린다. 따라서 오늘 다루고자 하는 '결측값'은 꼭 적절한 방법으로의 처리가 필요하다. 0. 결측값의 종류 - MCAR : Missing Completely at Random (완..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Vhkz4/btsF6Ix4Oly/j1D3qERXmZyo5jyckyQlqk/img.png)
문제1. 멘토링 짝꿍 리스트 출처 : solvesql 연습문제 문제 정보 : 난이도 3 / 정답률 40.68% https://solvesql.com/problems/mentor-mentee-list/ 정답 쿼리 SELECT a.employee_id AS mentee_id, a.name AS mentee_name, b.employee_id AS mentor_id, b.name AS mentor_name FROM employees a cross join employees b WHERE a.join_date BETWEEN '2021-10-01' and '2021-12-31' AND b.join_date = o.order_delivered_customer_date THEN o.order_id END) AS su..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bcWZU4/btsFUdec7jE/gAUehpo1Zjq1Qku05WMgm1/img.png)
문제1. 모든 데이터 조회하기 출처 : solvesql 데이터리안 sql캠프 입문반 문제 정보 : 난이도 1 / 정답률 98.61% https://solvesql.com/problems/select-all/ 정답 쿼리 select * from points 문제 해설 아주아주 기초 of 기초 문제 문제2. 복수 국적 메달 수상한 선수 찾기 출처 : solvesql 연습문제 문제 정보 : 난이도 3 / 정답률 29% https://solvesql.com/problems/multiple-medalist/ 정답 쿼리 select name from athletes a join records r on a.id = r.athlete_id join games g on r.game_id = g.id where g.yea..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cZ1yEe/btsFod7sV20/2C2SXEjwADd2ARczITgrD1/img.png)
문제1. Managers with at Least 5 Direct Reports 출처 : Leetcode - Medium https://leetcode.com/problems/managers-with-at-least-5-direct-reports/description/?envType=study-plan-v2&envId=top-sql-50 정답 쿼리 select name from employee where id in (select managerID from employee group by managerID having count(*)>=5) 문제 해설 1. 주요 포인트 1 - where절 서브쿼리 where id in (select managerID from employee group by managerI..