메인 주제 | 확률 분포 추정 |
---|---|
키워드 | |
참고자료 | 오일석3장, |
학습 목적
분류 문제를 푸는 가장 쉬운 방법
$$P(\omega_i \mid x)$$: x가 주어졌을때 그것이 부류 $$\omega_i$$에서 발생했을 확률 (사후 확률)을 구한다.
$$P(\omega_i \mid x)$$를 구하는것은 불가능
사후확률 --> 사전확률$$p(\omega_i)$$와 우도$$p(X \mid \omega_i)$$의 곱으로 대치
- 확률 분포 추정을 통해 사전확률 & 우도 값 계산 (최대 우도법, 비모수 추정법, EM)
- 사전 확률 계산법
- $$P(\omega_i)= \frac{\omega_i에 속하는 샘플수}{샘플수}=\frac{N_i}{N}$$
- 우도 계산법
- 분포를 미리 알고 있다면 (eg. 정규 분포) : 최대 우도법
- 정해진 분포가 없다면 : 히스토 그램, etc.
확률 밀도(확률)분포 추정 (Density Estimation)
모수를 아예 모른다고 가정하고 모집단으로부터 추출된 표본으로부터 모수를 추정하는 방법이다.
얻어진(관측된) 데이터들의 분포로부터 원래 변수의 (확률) 분포 특성을 추정하고자 하는 것이 density estimation(밀도추정)이다.
데이터로 부터 변수가 가질 수 있는 모든 값의 밀도(확률)을 추정
- 해당 변수에서 관측된 몇가지 '데이터'로부터 변수가 가질 수 있는 모든 값들에 대한 밀도(확률)를 추정하는 것
분류 방법
모수적 : 정규성, 데이터수 많음
비모수적 : 특정 분포 따르지 않음, 데이터 양 적음
모수적 방법 : 특정한 분포를 따른다고 가정하고 밀도함수의 파라미터(모수, eg:평균, 분산)를 추정하는 방법
- MAP: 최대 사후 확률
- ML/MLE : 최대 우도
비모수적 방법 : 어떠한 분포 형태도 가정하지 않고, 직접 밀도 함수를 유도하는 방법
- 히스토 그램
- K-NNR
- 파첸의 창 = 커널 밀도 추정(KDE)