머신러닝 (1) 썸네일형 리스트형 머신러닝 일반 - 질의 응답2 1. Dimension Reduction에 쓰이는 PCA와 Random forest에 대하여 설명하고, 장단점을 쓰시오. PCA PCA는 Principal Component Analysis의 약자로, 주어진 Data의 분산을 가장 잘 유지하는 직교축들을 선택하여 Dimension을 줄이는 기법이다. Data로부터 Covariance Matrix를 생성한 후 Covariance Matrix의 가장 큰 Eigenvector를 k개만큼 선택하고, 원본 데이터를 이 Eigenvector로 이루어진 Vector space로 Projection하는 방식으로 이루어진다. 장점 변수들간의 상관관계 즉 다중공선성을 제거할 수 있고, Noise를 제거할 수 있다. 숨은 latent vecotr를 찾는 효과가 있다. 단점 .. 이전 1 다음