메인 주제 | 확률 분포 추정-모수적방법 |
---|---|
키워드 | |
참고자료 | 오일석3장, |
확률 분포 추정
1. 모수적 분포
- 사전 확률 고려 유무
- Parametric 밀도추정
- 미리 pdf(probability density function)에 대한 모델(eg. 정규분포)을 정해놓고
- 데이터들로부터 모델의 파라미터$$\Theta$$만 추정하는 방식이다.
- 예를 들어, '일일 교통량'이 정규분포를 따른다고 가정해 버리면 관측된 데이터들로부터 $$\Theta$$(평균과 분산)만 구하면 되기 때문에 밀도추정 문제가 비교적 간단한 문제가 되어 버린다.
분류
$$ p(\Theta) $$에 대한 정보를 알고 있을 경우 고려 하여 계산
ML방법 | MAP방법 | |
---|---|---|
사전확률 | 균일 | 균일하지 않음 |
공식 | $$\hat\Theta = argmax\Theta \sum^{N}{i=1} \ln p(X_i \mid \Theta)$$ | $$\hat\Theta = argmax\Theta p(\Theta)\sum^{N}{i=1} \ln p(X_i \mid \Theta)$$ |
최적해 위치가 다름 | 사전 확률이 균일하지 않은 영향을 받아 최적해가 오른쪽으로 이동 |
|
예 (머리카락 길이에 따른 남여) |
남녀의 성비를 같다고 봄 | 남자의 성비정보 포함 |
정확도는 MAP가 높지만, 성비 정보를 알기 어려움으로 보통 같다고 놓고 MLE를 사용
1.1 최대 우도(ML)
1992년 R.A. Fisher 제안
사전 확률 고려 안함
최대 우도(ML)는 일어날 가능성(우도)이 가장 큰 것을 나타냄
- 즉, 관측된 랜덤 표본에 대한 여러 가설 중 관측결과에 따른 우도함수 값이 최대인 것
최대 우도 추정치(MLE: ML Estimator)
- L($$\Theta$$)를 최대로하는 $$\Theta$$ 값에 대한 추정치를 $$\hat\Theta$$ 이라하면,
- 이때의 $$\hat\Theta$$를 최대우도 추정치 또는 최대 가능도 추정량 (ML Estimator, MLE) 라고함
확률 추정 문제 = 최대 우도를 갖는 매개 변수를 찾는 문제 = 최대 우도 방법(ML method)
- 즉, 주어진 X를 발생 시켰을때 가능성이 가장 높은 매개변수 집합($$\Theta$$)를 찾아라
위 예에서
- P(X| Θ1)>P(X| Θ2)
- 최대 우도를 갖는 Θ는?
만약 추출된 표본으로부터 likelihood function을 구했다면,
likelihood function을 최대로 만들어주는 모수를 찾는 것
$$L(\hat\theta; x1,...,x_n) = \max{\theta \in \Xi}L(\theta; x_1,...,x_n)$$ |
---|
- $$\Xi$$는 가능한 모든 모수의 집합, $$\theta$$는 모수 |
주어진 샘플 x 에 대해 우도를 가장 크게 해 주는 모수 θ 를 찾는 방법
최대 우도법 : 선형회귀분석에서는 최소제곱법을 통해 회귀식을 추정하였다. 그러면 종속변수와 독립변수가 선형 관계에 놓여 있지 않는 일반화 선형모형에서는 어떤 방식으로 회귀식을 추정할 수 있을까? 일반화 선형모형에서는 대개 최대우도법(maximum likelihood method)을 이용하여 회귀식을 추정한다
공식 :
$$
MLE = \hat\Theta= argmax_\Theta p(X|\Theta)
$$
MLE = 최대(argmax)한 그럴듯한 추정
문제 풀이
원식 | $$argmax_\Theta p(X | \Theta)$$ |
---|---|---|
풀어쓰기 | - $$X={x_1,x_1,..,x_N}$$ |
|
로그 우도 변환($$\ln$$취하기) | - $$\prod{}{} \rightarrow \sum{}{}$$로 변한건 Log의 곱성질 때문인가? |
|
최적화 문제 이므로 미분 이용 | - 최적문제 : L($$\Theta$$)의 도함수를 0으로 두고 풀어 구한 답이 $$\hat\Theta$$ |
예제
정규 분포에서 분산($$\sigma^2 = 1$$), 샘플($$x_1 =1 $$)은 알고 있으나 평균($$\mu$$)을 모를 경우,
- 어떤 $$\mu(\mu =-1, \mu =0, \mu=1)$$ 값이 가장 가능성(우도)이 있어 보이는가?
- 이 세가지 $$\mu$$값에 대해$$x_0$$이 나올 확률이 바로 우도 이다.
1일 경우의 우도가 가장 크다. 따라서 MLE에 위한 추정값은 1이다.
구현시는 우도를 로그변환한 로그 우도(Log likelihood)함수로 변환 하여 계산 용이 하도록 함(곱셈->덧셈)
ML 활용 가능 알고리즘
- EM 알고리즘
- Baum-Welch 알고리즘
ML은 메타 휴리스틱(=응용에 따라 내부 알고리즘 대체) 이므로
[참고] MLEs를 이용하여 모수 population parameter 를 추정하는 방법
- Geometric distribution의 모수 추정하기
- Poisson distribution의 모수 추정하기
- Uniform distribution의 모수 추정하기
- Normal distribution의 모수 추정하기
- Gamma distribution의 모수 추정하기
1.2 MAP방법
사전 확률 고려함
ML은 P($$\Theta$$)가 균일하다고 가정하고 있다.(사전확률 고려 안함)
만약 P($$\Theta$$) 정보가 사용가능하고 균일 하지 않다면 P($$\Theta$$)를 식에 추가 하여야 한다.
$$ \hat\Theta = argmax\Theta p(\Theta)\sum^{N}{i=1} \ln p(X_i \mid \Theta)
$$
식에서
- P($$x_i \mid \Theta$$)를 우도로 ,
- P($$\Theta$$)를 사전 확률로 본다면
- P($$x_i \mid \Theta$$)P($$\Theta$$)는 사후확률로 간주 할수 있다.
이 수식을 풀어서 최적의 매개 변수를 찾는 방법을 MAP라 한다.