머신러닝과 통계학은 매우 밀접한 관련이 있습니다.
그중, MLE(Maximum Likelihood Estimation)와 MAP(Maximum A Posterior)은 머신러닝 분야와 통계학을 이어주는 중요한 개념이라고 개인적으로 생각하고 있습니다.
따라서, 앞으로 몇 가지의 통계학(Statistics) 포스팅은 이 두 가지 개념을 머신러닝 관점에서 다루는 글을 작성하고자 합니다.
먼저, Bayes Theorem(베이즈 정리)에 대해서 알아보도록 하겠습니다.
그전에 Conditional Probability(조건부 확률)에 대해서 설명해 보면, 조건부 확률은 어떤 사건 $B$가 발생했다는 조건 하에서 다른 사건 $A$가 발생할 확률을 의미합니다.
이를 수식으로 표현하면 다음과 같습니다.
$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}$$
- $ P(A \mid B) $: $B$가 발생했을 때, $A$가 발생할 확률
- $ P(A \cap B) $: $A$와$B$가 동시에 발생활 확률
- $ P(B) $: $B$가 발생할 확률
이러한 조건부 확률을 사용해서 우리가 해결하고자 하는 문제들을 자연스럽게 정의할 수 있습니다.
예를 들어, 암 진단 검사에서 양성이 나왔을 때, 실제 병에 걸렸을 확률은 아래와 같이 수식을 작성할 수 있습니다.
$$P(실제 병 \mid 양성)$$
이때, 베이즈 정리를 활용해서 이 문제들을 다른 방식으로 정의할 수 있습니다.
$$ P(실제 병 \mid 양성)=\frac{ P(양성 \mid 실제 병)\times P(실제 병)}{P(양성)}$$
이를 다시 수식으로 변환을 하면 다음과 같습니다.
$$P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}$$
- $ P(A \mid B) $: $B$가 주어졌을 때 $A$가 발생할 확률(사후확률, Posterior)
- $ P(B \mid A) $:$A$가 주어졌을 때 $B$가 발생할 확률(우도, Likelihood)
- $P(A)$: $A$가 발생할 확률(사전확률, Prior)
- $P(B)$: $B$가 발생활 확률(증거, Evidence)
즉, 다시 말해 베이즈 정리는 사후 확률(What we want)를 구하기 위해 기존의 정보들(우도, 사전확률)(What we know)을 활용하는 것이라고 할 수 있습니다.
'Statistics' 카테고리의 다른 글
[Statistics#1] 탐색적 데이터 분석(EDA) (1) | 2024.12.09 |
---|