카이제곱 적합도 검정이란 검증량 Q 값이 카이제곱 분포를 따른다는 뜻입니다.
먼저 적합도 검정에 대해 쉽게 말하자면... 모나미양은 볼펜을 만드는 회사에서 품질관리를 하고있습니다. 회사에서 새로운 신제품을 출시했는데 이 제품이 고장이 너무 많이 생긴다는 클레임이 여러 곳에서 들어왔습니다. 그래서 모나미양은 제품 출시부터 고장날 때까지의 시간 표본들을 수집하여 분석해봤더니 이 고장 표본들이 지수분포를 따르는것같습니다. 이 때 그러면 모나미양은 고장분포를 지수분포라고 논리적으로 상사에게 보고할 수 있을까요? 무엇을 근거로 보고를 할까요? 이 때 모나미양에게 필요한 통계학 도구가 바로 카이제곱 적합도 검정입니다. 표본을 구했을 때 이 표본은 어떠한 분포로부터 나왔을 겁니다. 지수분포, 와이블 분포, 포아송 분포 등등.. 그런데 그 분포가 뭔지 모르니까 카이제곱 정규성 검정으로 처음에 생각한 표본이 맞는지 아닌지 따져볼 수 있습니다.
그러면 검정량 Q는 뭐고 어떻게 구하고 카이제곱 분포를 따른다는 그 의미는 뭘까요??
먼저 검정량 Q에 관한 중요한 정리가 있습니다.
실제 증명은 limiting probability지식을 요구하기 때문에 증명하지 않고 일단 요것이 이렇다는 것말 알아두면 됩니다.
그러면 저 정리를 분석해봅시다.
여기서 X1, X2... 은 관측도수입니다.
예를들어 주사위를 40번 던져서 눈이 1이 나온게 8번이라고 한다면 X1은 8이 됩니다.
또한 n은 시행 횟수가 됩니다. 마지막으로 P1은 주사위 눈이 1이 나올 확률 즉, 1/6이 되겠네요
그러면 당연히 n*P1은 주사위 눈이 1이 나올 기댓값 n*P2는 주사위 눈이 2가 나올 기댓값 이렇게 됩니다.
확장해서 X1-n*P1 의 의미는 실제 관측도수를 기댓값으로 빼버린 것이지요
그러면 무엇을 얻을 수 있을까요?
바로 기댓값에서 얼마나 엇나났는지를 확인할 수 있습니다. 여기서 제곱을 해준것은 음수도 나올 수 있기 때문에 제곱을 해준것이며 마지막 기댓값으로 나눠준 것은 이 엇나감이 기댓값과 비례해서 어느정도 크기로 차이가 나는지 나타냅니다.
근대 여기서 중요한게 있습니다. 바로 마지막 점근적으로 자유도가 K-1인 카이제곱분포를 따른다.. 이 뜻은 n이 작으면 조금 안맞지만 n이 커질수록 카이제곱 분포를 따른다는게 됩니다.
그러면 그 엇나감이 모인 Q라는 검증량은 무엇을 의미할까요?
이 검증량 Q를 이해하기 위해서 예를 들어봅시다. 어떤 지역에서 60일 동안 도난 사건을 관측했더니 다음과 같은 결과를 보입니다.
도난건수 | 0회 | 1회 | 2회 | 3회 | 4회 이상 |
관찰도수 | 27 | 18 | 12 | 3 | 0 |
이때 하루에 발생하는 도난건수가 포아송분포를 따르는지 검증해봅시다.
이 문제에선 포아송 분포라는 가정을 세웠는데 람다 값을 모르기 때문에 도난건수가 발생할 확률을 구할 수 없습니다. 따라서 최대우도함수를 사용하여 위에 자료를 토대로 람다를 구하여 확률을 추정을 해봅시다.
여기서 P3까지만 계산했는데 외냐하면 3회 이상부터는 값이 너무 작아서 2회 이상부터는 전부 합쳐버렸습니다.
그러면 Q값까지 구해졌습니다.
여기서 잘 생각해봅시다
만약 ... 만약에 Xi값과 기댓값인 nPi 값이 모든 i에 대해서 같으면 Q값은 0이 나오겠죠?
다르게 Xi값과 기댓값인 nPi 값이 모든 i에 대해서 매우 어긋나있으면 Q 값은 자연스럽게 큰값이 나옵니다.
그런데 더 잘생각해보면 애초에 저 위에 최대우도함수로 람다를 구할때도 확률을 구할 때도 전부 포아송 분포라는 근거로 계산했습니다.
이제 이해가 되나요? 어떠한 분포라는 것을 근거로 Q값을 구했는데 Q값이 크다면 근거 했던 분포가 틀리다는게 됩니다.
근대 여기서 한가지 의문점이 남네요 바로 Q값이 크다는 기준이 없습니다. 무엇을 기준으로 틀리다는걸 말할 수 있을까요?
여기서 문제를 다시 써야합니다.
다시 쓴 문제
도난건수 | 0회 | 1회 | 2회 | 3회 | 4회 이상 |
관찰도수 | 27 | 18 | 12 | 3 | 0 |
이때 하루에 발생하는 도난건수가 포아송분포를 따르는지 유의수준 5%로 검증해봅시다.
자 여기서 유의수준이 등장했습니다.
그러면 먼저 도난건수를 X라 하면 귀무가설과 대립가설부터 정의합니다.
H0 : X는 포아송분포를 따른다.
H1 : X는 포아송분포를 따르지 않는다.
그러면 위에서 구한 Q값은 카이제곱분포를 따른다고 했죠?
그러면 범주를 3개(0회, 1회, 2회이상)로 나눴으므로 k=3 그러면 k-1이 자유도니까 2가 되야겠죠?? 근대 문제가 있습니다. 위에서 최대우도함수를 사용했다는 거죠 이 뜻은 데이터로부터 파라메터를 추정해버렸다는 뜻이 되며 추가적으로 자유도 1을 깍아야합니다. 따라서 최종적으로 k-1-1=1이 자유도가 됩니다.
그러면 유의수준 0.05로 자유도가 1인 카이제곱 분포를 계산해본 결과 3.838이 나오네요
이 유의수준의 뜻은 저 위에 도난사건의 관찰이 극단적으로 나올 확률을 따지는 겁니다.
여기서 극단적으로 나왔다는 것은 도난사건이 관찰 60일까지 일어나지 않았다던지 매일 빠짐없이 도난 사건이 일어났다던지 그런 경우를 말하는 거죠
위에서 구한 Q값이 극단적으로 나올 확률은 약 28%정도가 되네요
그러면 상식적으로 생각해서 관찰을 60번이나 했는데 이 관찰값이 극단적으로 나올 경우가 더 많을까요 아니면 극단적으로 나오지 않을 경우가 더 많을까요??
당연히 극단적으로 나오지 않을 경우가 더 많을겁니다. 따라서 Q값이 3.838보다 작다는 것은 극단적으로 나올 확률이 5%라고 했을 때 극단적으로 나올 확률이 28%보다 5%를 택하는게 더 합리적이므로 가설 H0 즉, "X는 포아송분포를 따른다."를 택할 수 있습니다.
'통계학개념' 카테고리의 다른 글
신뢰성공학에서 TTT(Total Time on Test)의 개념은 무엇일까요? (0) | 2020.06.13 |
---|---|
최대우도추정(MLE)의 개념은 무엇일까요? (0) | 2020.05.30 |
확률에서 포함 배제의 원리가 뭘까? (0) | 2020.05.21 |
이항분포와 푸아송분포 연관성은 무엇일까? (0) | 2020.05.21 |
WRITTEN BY