어떤 역을 운영하고 있는 역무원이 있다고 생각해봅시다 땡땡이 치기를 좋아하는 역무원은 문뜩 이런 생각이 들었습니다 " 1시간에 아무도 이 역 안으로 들어오지 않을 확률은 얼마일까?" 역무원은 궁금증을 풀기 위해서 기록을 시작했습니다.
기록을 하면서 역무원은 방문자가 1시간에 평균 60명 정도가 들어 왔다고 추정을 하였습니다
그러면 이 역에 시간당 방문자 평균은 60가 되겠네요
역무원은 방문자의 분포를 이항분포로 정의했습니다. 이항분포에 따르면 평균값은 시행횟수 * 성공 확률로 정의되어있습니다. 여기서 시행 횟수는 시간이고 성공확률은 방문자가 특정 시간단위 안에 들어올 확률이 되겠네요
다시 위에서 1시간에 평균 방문자가 60명이니 이것을 다시 쓰면
평균 = 60 방문자/시간 이 될 수 있겠죠?
근대 같은 방식으로 이항분포에 따른 평균값은 시행횟수 * 성공확률로 정의되어 있었고 시간이 시행횟수라고 하였으니
이렇게도 쓸 수 있습니다
평균 = 시행횟수 * 성공 확률
60 방문자/시간 = 60 분/시간 * (60/60) 방문자/분
이렇게 쉽게 분당 사람이 방문할 확률을 구했습니다
근대 이상한 점이 있네요 분당 사람이 방문할 확률이 60/60 즉 1로 나옵니다
즉, 무조건 1분마다 사람이 들어온다는 뜻이 되네요
역무원은 곰곰히 생각해보고 오류를 찾아냅니다
1분안에 사람이 들어오기만 한다면 몇명이 들어오든 성공으로 친다는 사실이죠
이러한 오류를 해결하기 위해서는 어떻게 해야할까요?
바로 단위 시간을 더 쪼개는 것입니다 분을 초단위로 바꾸는 거죠
그러면 60 방문자/시간 = 3600 초/시간 * (60/3600) 방문자/초
즉, 성공확률이 1/60 방문자/초
1초마다 사람이 들어올 확률이 1/60이 됩니다.
따라서 이항분포 값을 이용하면 다음과 같이 1시간동안 아무도 안올 확률을 구할 수 있습니다.
예상대로 확률이 엄청 적군요 그런데 위 식에는 맹점이 있습니다 바로 성공확률을 1초동안 역에 방문할 확률로 정의했다는거죠 만약 1초안에 2명 혹은 10명이 방문을 해도 한명이 방문했다는 것과 동일한 확률을 지닙니다 앞서 분으로 계산할 때와 동일한 오류가 생기는거죠
역무원은 이러한 사실도 반영하기 위해서 성공확률을 초 단위보다 더 세밀한 0.1초단위로 나눴습니다
60 방문자/시간 = 36000 (0.1초)/시간 * (60/36000) 방문자/(0.1초)
그런데 자세히보면 단위를 쪼개면 확률도 변화합니다 이건 당연한 현상입니다
왜냐하면 앞서 계산한 초단위 확률과 분단위 확률을 비교해보면 분단위 일때는 1이 나오므로 무조건 일어나는 사건이 됩니다 그러나 초단위 일때는 1/60확률로 60초가 지나서 똑같은 1분이 됬을때도 한명도 안들어올 확률이 여전히 존재하게 되는거죠
그러면 어떤 단위를 선택해야될까요?
0.1초 단위? 0.01초 단위는 어떨까요? 0.00000001초는??
그냥 복잡하게 하지 말고 단위 자체를 무한으로 쪼개는건 어떨까요?
이 아이디어가 바로 포아송 분포의 시작이 됩니다
계산 과정은 상당히 복잡하지만 다른 사이트에서도 쉽게 구할 수 있으니 생략하고 결론으로 이 두 수식에는 깊은 연관성이 있다는 것과 식의 의미을 알아차리는게 중요합니다
포아송 분포는 측정 단위 자체를 무한으로 날려버렸으니 단위를 임의로 사용자 마음대로 지정할 수 있으며 횟수 자체도 큰수를 써도 단위에 구애받지 않게 됩니다.
역무원은 1시간당 들어온 평균 방문객수를 바탕으로 1시간 동안 1000명 들어올 확률도 구할 수 있게되었네요
그래도 여전히 1시간동안 아무도 안올확률은 매우 적지만요
'통계학개념' 카테고리의 다른 글
신뢰성공학에서 TTT(Total Time on Test)의 개념은 무엇일까요? (0) | 2020.06.13 |
---|---|
카이제곱(카이스퀘어) 적합도 검정을 쉽게 풀이해봅시다! (0) | 2020.05.31 |
최대우도추정(MLE)의 개념은 무엇일까요? (0) | 2020.05.30 |
확률에서 포함 배제의 원리가 뭘까? (0) | 2020.05.21 |
WRITTEN BY