확률은 논리고 직감은 만용이라는 말이 있는데
이를 단편적으로 보여주는 예가 베이즈의 정리라고 생각한다.
베이즈의 정리란 어떠한 사건A가 조건B에서 일어난 경우 그 조건이 A의 확률에 영향을 미친다는 것을 정리한 것인데,
정기적으로 병림픽을 개최하는 몬티 홀 딜레마도 베이즈 정리의 일종이라고 볼 수 있다.
공식으로 나타내면 아래와 같은데
이딴 머리아픈 공식은 집어치우고 좀 더 쉽게 이해를 해보자. 대부분의 수학이 그렇듯
대수(algebraric)로 표현한 공식은 전공자를 위한거지 교양용으로 쓰일 게 아니다.
그럼 원론서에 나온 사건을 한 개 예로 들어서 문제를 내 보자
Q. 결핵의 감염 여부를 측정하기 위해 투베르클린 반응검사를 실시한다. 임상실험에 의해 조사 대상자 중 실제로 결핵에 감염된 사람의 비율은 10% 이고, 결핵에 감염되지 않은 사람의 비율은 90% 라고 한다. 결핵에 감염된 사람 중 투베르클린 반응검사 결과 양성으로 나타나는 경우가 95% 이고, 결핵에 감염되지 않은 사람 중 양성으로 나타나는 경우가 10% 라고 한다. 한 사람에게 투베르클린 반응검사를 한 결과 양성 반응이 나타났을 때, 이 사람이 실제로 결핵에 감염되었을 확률은 얼마인가?
정리하자면 표본 중 실제 결핵 감염자는 10%이고,
결핵검사 결과 양성인 사람을 양성 판정 하는 경우가 90%, 음성인 사람을 양성 판정하는 경우가 10% 라고 한다.
이때 검사 결과 전체 인구 중 양성반응을 받은 사람이 실제 결핵일 확률이 얼마인지를 물어보는 것이다.
검사의 정확도가 95% 니까 95% 일까?
그렇지 않다. 결과부터 말하자면 51.35%에 불과하다.
그 이유를 알아보자.
먼저 세계 인구가 400명이라 가정하고, 감염자와 비감염자 수를 그림으로 나타내면 아래와 같다.
이 중 검사 결과 양성으로 나타나는 경우를 표현하면 아래와 같아진다.
여기까지 이해가 되었는가? 그러면 다시 양성 판정을 받은 사람끼리만 묶어보면 아래와 같은 그림이 된다.
우리는 양성판정을 받은 사람이 실제로 결핵일 확률을 구하고자 하는 것이니까, 총 양성 판정을 받은 인구 중 실제 결핵 인구 비율을 구하면 답이 나오게 된다.
자 이렇게 문제가 해결되었다. 결핵 환자에 대한 검사의 정확도는 95% 지만 다른 사건인 비 감염자에 대한 오진률이 사건의 확률에 개입하였더니
이러한 결과가 나왔다. 사건이니 개입이니 말은 거창하지만 실제로 이렇게 까놓고 보면 지극히 당연하고 상식적인 내용인 것이다.
위의 복잡한 수식은 이 그림으로 나타낸 과정을 한번에 표현한 것에 불과하다.
즉 2가지 사건을 결합하고 이 중 구하고자 하는 범위를 한정한 뒤 다시 실제 확률을 구하는 식일 뿐이다.
사람들은 직감으로 해를 구하려다가 이런 함정에 빠져 그릇된 선택을 하는 경우가 너무나 많다. 몬티 홀 병림픽이 아주 좋은 예가 되겠다.
우리 개드리퍼들도 기본적인 확률에 대한 지식은 가져 놓으면 참 많은 도움이 될 것이다.
확률은 실생활과 Money 벌이, 적어도 Money를 손해보지는 않는 데 아주 자주 활용되는 학문이기 때문이다.
gogogog
나눔급식체
일반적으로 검사 정확도 = 보균자를 보균자라고 정확히 진단내릴 확률인데
비보균자를 보균자라고 진단내리는 경우는 애초에 없는 항체를 발견해내서 진단내리는 과정인지라 어불성설인거지
차라리 정확도가 아니라 오진률이라고 하던가...
이 밑에 글은 단순한 말장난임
쓰테이끼
도시공학에코사이언스
Catseye
비 감염자에 대한 오진률이 아니라 감염률이 개입한게 맞는거 아니야?
리플리
잉텔
고기만두
김케이
말이나 글만으론 잘 안 와닿는데 이렇게 그림같은게 있으면 확 와닿더라고 ㅎㅎ
머리가 나쁜 탓인지 원
재밌게 읽었음 ㅎㅎ
통계학원론
죽죽
그건 중간에 사회자가 답을 알고 개입하기 때문에 확률이 달라지는거고
그 때문에 눈에 잘 안보이는 경우의 수가 더 늘어나는 것뿐이지 확률 체인이 있는게 아님.
Sticky
P(A) = 처음 선택한 문에 자동차가 있을 확률 = 1/3
P(B) = 남은 2개의 문 중 진행자가 특정 문을 열 확률 = 1/2
P(B') = 남은 2개의 문 중 하나에 자동차가 있을 때, 사회자가 남은 하나의 문을 열 확률 = 1
P(C) = 처음 선택하지 않은 문에 자동차가 있을 확률 = 1/3
즉,
P(A|B) = 사회자가 문을 열고, 처음 선택한 문에 자동차가 있을 조건부 확률. = 선택 유지
P(C|B) = 사화자가 문을 열고, 처음 선택하지 않은 문에 자동차가 있을 조건부 확률 = 선택 변경
P(A|B) = 1/2*1/3/(1/2) = 1/3 '문을 바꾸지 않는 경우
P(C|B') = 1*1/3/(1/2) = 2/3 '문을 바꾸는 경우
죽죽
이거는 왜 이런거야?
P(C) = 1 - P(A) 이어야 되는거 아니야?
Sticky
P(C) = 3번 문에 자동차가 있을 확률 = 1/3 임. (사회자가 문을 열기 전 확률)
재미없네
Sticky
재미없네