확률이나 수학을 전공한 분들이야 어려운 이야기가 아니겠지만, 저같은 비전공자는 복잡한 수식보다도 위에 사각형을 이해하는게 베이즈 정리를 파악하는데 더 도움이 됩니다.
위의 유투브 영상에 나온 예시대로 간단하게 풀어보자면 어떤 사람의 성격을 묘사해봅니다. 조용하고 책을 좋아하고, 화를 내지 않으며, 클래식 음악을 좋아하는 성격을 가지고 있다고 한다면, 이 사람이 도서관 사서일 가능성이 높을까요 아니면 농부일 확률이 높을까요?
이 사람이 도서관 사서일 확률이 높을지, 아니면 농부일 확률이 높을지를 결정하는 변수는 두가지를 고려해야 합니다.
- 도서관 사서 중 해당 성격을 가지고 있을 확률(P(E/H)) 및 농부 중에서 해당 성격을 가지고 있을 확률(P(E/-H)
- 도서관 사서 인구와 농부 인구의 비율(P(H))
도서관 사서 일을 오랫동안 하다보면 위에 언급하는 조용하고 책 좋아하고, 화를 잘 내지 않고 클래식 음악을 좋아하는 성격을 가지고 있을 확률(P(E/H))이 농부가 그런 성격을 가지고 있을 확률(P(E/-H) 보다는 아무래도 좀 더 높겠죠 그런데, 이 사람이 농부일 확률이 높은지, 도서관 사서일 확률이 높은지를 보려면 두 직업 중에 해당 유형의 사람이 있을 확률만 가지고 비교해서는 안됩니다. 가장 결정적인 변수는 농부와 도서관 사서의 수가 어느정도 비율로 분포하느냐입니다.
즉 도서관 사서(H)의 수 대비 농부(-H)의 비율이 얼마나 차이가 나는지를 알고 있어야만 정확하게 비교를 할 수 있다는거지요.
그런데, 우리는 이 두가지 데이터, 즉 각 직업들 중 해당유형의 성격을 가진 사람이 있을 확률도 정확히 알지 못할 뿐더러 사서와 농부의 정확한 숫자도 대강의 통계연감만으로 파악할 수 있을 뿐입니다.
각각의 변수에 대한 정보, 즉 결론을 내는 데 필요한 근거들이 바뀌면 그에 비례해 결론 자체도 시시때때로 바뀔 수 밖에 없는거지요. 그런데, 이렇게 사각형 내에서 두가지 정보에 의해 바뀌게 되는 각각의 구획을 시각화 하게 되면 두가지 정보들 중 어떤 국면에서 어떤 변수가 결론에 더 큰 영향을 미치게 되는지를 눈으로도 금방 볼 수 있게 됩니다.
만약 도서관 사서나 농부가 해당 유형의 성격을 가지고 있을 확률이 서로 엇비슷한 경우( P(E/H)≒P(E/-H) ) 결론에 영향을 미치는 건 압도적으로 농부와 도서관 사서의 비율이 되겠죠. 반대로 도서관 사서와 농부의 숫자가 엇비슷하다면 각각의 확률이 얼마나 차이가 나느냐가 결론에 결정적인 영향을 미치는거구요.
여기서 우리가 주목해야 하는 부분은 각각의 직업군에서 해당 유형의 성격을 가진 사람이 있을 확률이 낮은 경우, 즉 위 사각형에서 파란색을 차지하는 영역이 매우 낮을 경우라면 결론을 좌지우지하는 변수가 우리의 선입관, 즉 도서관 사서라면 으례 조용하고 책을 좋아하고 화를 내지 않으며 클래식 음악을 좋아할거라는 기존의 선입관이 얼마나 타당한가(선입관이 옳을 확률) 보다는 농부와 도서관 사서의 숫자, 즉 어느쪽 집단이 더 많은가 하는 것이 백배는 더 중요하게 되버린다는 점입니다. 이 문제를 “역확률”이라는 단어로 정의하고는 합니다. 이런 역확률이 매우 중요하게 여겨지는 게 의학, 특히 유병율에 의해 민감도와 특이도의 중요성이 달라지는 경우입니다.
어떤 특정 질환을 진단하는 검사장비가 있다고 합시다. 해당 장비의 민감도(sensitivity)가 90%, 특이도(specificity)가 80%라고 가정해봅시다.
| 검사에 양성 | 실제 질환이 있는 경우 | 결과 |
| 100건 | 90건 | 민감도(sensitivity) 90% |
| 검사에 음성 | 실제 질환이 없는 경우 | 결과 |
| 100건 | 80건 | 특이도(specificity) 80% |
대충 위와 같은 표로 해당 검사장비의 성능을 요약할 수 있을 것입니다. 하지만, 현실에서는 위와 같은 확률정보만 있는게 아니라, 병 자체가 발생할 확률, 전체 인구 중 병이 있는 유병자의 비율인 유병률이라는 변수가 하나 더 존재하게 됩니다. 만약 해당 질환의 유병률이 1만분의 1, 즉 1만명 중 한 명만 걸리는 유병률을 가지고 있고, 건강검진 항목에 넣어야 하기에 총 천만명의 인구를 검사하면 어떤게 되는지 정리해봅시다.
| 검사에 양성 | 검사에 음성 | 결과 | ||
| 실제 질환자 | 1,000명 | 900명 | 100명 | 위음성도 11% |
| 건강한 사람 | 999만9천명 | 199만9천8백명 | 799만9천2백명 | 위양성도 20% |
이 검사는 검사로서 가치가 있다고 말할 수 있을까요? 천만명 중 무려 199만9천9백명(위음성자 100명 + 위양성자 199만9천8백명)을 오진으로 몰아넣는 검사가 되버리는데 그럴 리가 없죠.
여기서 해당 검사의 신뢰도에 영향을 미치는 가장 결정적인 변수는 민감도도, 특이도도 아닌 유병률이라는 변수가 되버립니다. 해당 검사장비를 개발한 회사에서 아무리 민감도 99%니, 99.999%라고 홍보를 해도 해당 질환의 유병률이 0.01% 미만이면 이처럼 쓸모없는 검사가 되어버리게 되지요.
여기서 베이즈 정리가 중요한 건, 이렇게 우리가 입수한 정보들 중에서 어떤 정보가 잠정적 결론의 신빙성에 결정적인 영향을 미치는지를 수학적으로 풀어서 시각화하는 게 가능하다는 점입니다.
또한, 유투브 영상 말미에도 언급하고 있듯이 베이즈 정리는 철학 또는 인식론적으로도 큰 의미를 찾을 수 있는데, 어떤 증거나 정보도 우리의 믿음을 확고불변하게 결정해주지 못하며, 다만 우리의 잠정적인 믿음들을 찾아낸 정보에 따라 수시로 업데이트 해주는 역할 이상을 기대해서는 안된다는 점입니다.