목록2024/08 (3)
짜리몽땅 매거진
데이터 변환은 데이터를 다른 형태로 바꾸는 작업을 의미합니다. 데이터 변환은 다양한 목적을 가지며, 주로 아래와 같은 이유로 수행하게 된다.데이터 분포 변화: 데이터가 정규분포를 따르지 않을 때, 로그 변환, 제곱근 변환 등으로 데이터를 변환하여 정규분포에 더 가깝게 만든다. 이 과정을 통해 모델의 성능을 향상시킬 수 있다.이상치 영향 줄이기: 로그 변환과 같은 방법은 이상치=의 영향을 줄여서 모델이 이상치에 덜 민감하게 만든다.데이터 관계를 선형화: 비선형적인 관계를 선형으로 바꾸기 위해 데이터 변환이 사용된다. 예를 들어, 지수적인 증가를 보이는 데이터를 로그 변환을 통해 선형화할 수 있다.모델링을 진행할 때 성능을 향상시키기 위해 변환과 스케일링 처리를 동시에 수행하는 경우가 많은데 이 두 개의 과..
KNN 알고리즘과 K-means 클러스터링과 같은 머신러닝의 기초적인 모델들은 모두 거리기반 측정을 바탕으로 시작한다. KNN 알고리즘의 경우 가까운 속성에 따라 분류한다고 했는데 '가깝다'는 것에는 기준이 필요하다. 나중에 KNN 알고리즘에 대해 자세히 다루겠지만, KNN 알고리즘은 거리기반 분류분석 모델로 거리를 기반으로 분류하는 알고리즘이며 따라서 상대적으로 거리가 더 짧은 이웃이 더 가까운 이웃으로 취급된다. 즉, KNN 알고리즘은 어떤 새로운 데이터로부터 거리가 가까운 K개의 다른 데이터의 레이블(속성)을 참고하여 K개의 데이터 중 가장 빈도 수가 높게 나온 데이터의 레이블로 분류하는 알고리즘이다. K-means 알고리즘에서 K는 묶을 군집의 개수를 의미하고 means는 평균을 의미한다. 단어 ..
Kmeans알고리즘은 머신러닝 비지도학습에 속하는 K-means 알고리즘은 쉽게 말해 데이터를 K개의 군집(Cluster)으로 묶는(Clusting) 알고리즘이다. 군집이란 쉽게 말해서 비슷한 특성을 지닌 데이터들을 모아놓은 그룹(Group)이다. 마찬가지로 군집화는 군집으로 묶는다는 의미로 해석할 수 있다. Kmeans알고리즘은 KNN알고리즘과 구분하는 것이 중요한데, 분류와 군집화의 차이점에 대해 간단히 살펴보자.분류분류는 지도학습 방법에 속하여 정답이 주어졌을 때 정답을 기반으로 데이터를 나누는 방법을 의미한다. 따라서 머신러닝에서 모델을 학습시킬 때 모델이 제대로 분류하는지를 평가하기 위해 정답을 제거하고 모델이 예측한 레이블과 실제 레이블을 비교하여 모델의 성능을 판단한다.군집화반면, 군집화는 ..