[차원 축소] 차원 축소를 위한 알고리즘: PCA, T-SNE, UMAP
차원 축소란
- 고차원 데이터에서 저차원 데이터로 변환하는 방법 또는 매우 많은 특징으로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터를 생성 하는 과정
- 일반적으로 차원이 증가할 경우 데이터 간 거리가 기하급수적으로 증가하기 때문에 희소한 구조를 가지게 되어 모델의 예측에 대한 신뢰도가 떨어지게 됨
- 일반적으로 차원 축소는 특징(Feature)에 대해 선택(Selection)과 추출(Extraction)으로 나눌 수 있음
- 특징 선택(Feature Selection) : 종속성이 강한 불필요한 특징을 제거하는 방법
- 특징 추출(Feature Extraction) : 기존 특징에서 더 저차원으로 중요 정보만갖도록 특징으로 압축하는 방법
- 결론적으로 차원 축소를 통해 데이터를 잘 설명할 수 있는 잠재적 요소를 나타내고자 하는 것 (모델 성능을 위해)
차원 축소 알고리즘 (Dimension reduction algorithm)
- 차원 축소 알고리즘은 아래와 같이 2가지의 종류로 나뉘며 포함하는 알고리즘은 다음과 같음
- Metrix factorization
- PCA (prinsipal componant analysis)
- Neightbor graph
- T-SNE (t-distributed Stochastic Neighbor Embedding)
- UMAP (Uniform Manifold Approximation and Projection)
- Metrix factorization
PCA
-
대표적인 차원 축소 기법이며 Matrix factorization에 근거
-
분산이 최대인 축을 찾고, 이 축과 직교하며 분산이 최대인 두 번째 축을 찾아 투영시키는 방식 (공분산 행렬의 고유값과 고유벡터를 구하여 산출한다.)
-
단점 : Linear Hyperplane에 분포된 데이터들을 Projection(투영, 정사영) 하는 것이기 때문에 Non-Linear Hyperplane에 분포된 데이터들에 대해 차원 축소 시 잘 표현될 수 없다는 것이 한계
-
PCA에 대한 자세한 설명은 여기서 확인
댓글남기기