TTT란 특정 시점까지 시험한 총 시간을 뜻합니다.

 

예를들어 다음과 같이 자동차에 대한 고장 시점 자료가 있다고 합시다.

 

 

1---------X

2---------------------X

3--------------X

4------------------------------------------X

5------------------------------X

----------------------------------------------->시간

 

자동차 1이 고장날 시점이 5년이라고 한다면 이 때 TTT를 구해봅시다

 

5년 전까지는 5대 모두 잘 작동하고 있었으므로 TTT는 5*5=25가 됩니다.

 

자동차 2가 6.5년에 고장 났다고 한다면 이 때 TTT는 그 전까지 4대가 작동하고 있었으므로 다음과 같이 계산됩니다.

 

TTT(자동차 1 고장시점) + (6.5-5) *4 = 31

 

그러면 TTT가 왜 필요할까요?

 

TTT가 필요한 이유는 비모수적 방법 중 고장 분포를 잘 나타내는 방법중 하나이기 때문입니다.

 

예를들어 어떤 나라에 바이러스가 퍼져서 사망자가 늘어나고 있다고 해봅시다.

 

그러면 그 사망자에 대한 통계값이 나올텐데 어떤 분포로 나오는지 모르니 일단 데이터만 가지고 분석해보려고 합니다.

이 방법을 전문용어로 비모수적 방법이라고 합니다.

 

TTT는 이 비모수적 방법중 하나로 유용하게 쓰이기 때문에 사용하는데 보통 그냥 저 데이터만 사용하기 보다는 그래프로 나타내어 사용합니다. 이것을 TTT plot이라고 합니다.

 

일단 그래프로 나타내기 위해서 (x, y)의 값을 알아야하는데 좌표 수식 한개를 먼저 봅시다.

 

 

이것을 1번부품부터 해서 n번 부품까지 값을 차례대로 구해서 점을 찍는거죠

저 수식을 해석해보면 다음과 같습니다.

 

i/n 은 고장난 부품이 차지하는 비율입니다.

그리고 최종적으로는 n/n으록 가기 때문에 1이 됩니다.

 

TTT(i 부품 고장 시점 ) / TTT(모든 부품 고장 시점)는 전체 TTT시간(모든 부품이 고장나기까지 걸린 개별시간을 전부 합친값) 에서 특정 i부품까지 고장난 시간이 차지하는 비율입니다.

 

결론적으로 저 수식은 특정 부품이 파괴될 때까지 전체 부품과 시간에 대한 비율을 나타냅니다.

 

이제 실제 그래프로 나타내고 해석을 해봅시다.

 

위에서 언급한 자동차가 출고 후 고장될 때까지 걸린 개월 수가 다음과 같다고 합시다.

 

6.3 11.0 21.5 48.4 90.1 120.2 163.0 182.5 198.0 219.0

 

이때 TTT 그래프를 그리기 위해서 일단 고장 시점 막대 그래프를 한번 그려봅시다.

총 10개의 부품이 있고 최종 고장까지 걸린 개월 수는 219개월입니다.

 

이제 각 TTT지수를 구해봅시다.

 

 

i

고장시점

TTT(i)

TTT(n)

TTT(i)/TTT(n)

i/n

1

6.3

63.0

1060

0.059433962

0.1

2

11.0

105.3

1060

0.099339623

0.2

3

21.5

189.3

1060

0.178584906

0.3

4

48.4

377.6

1060

0.356226415

0.4

5

90.1

627.8

1060

0.592264151

0.5

6

120.2

778.3

1060

0.734245283

0.6

7

163.0

949.5

1060

0.895754717

0.7

8

182.5

1008

1060

0.950943396

0.8

9

198.0

1039

1060

0.980188679

0.9

10

219.0

1060

1060

1

1

이때 TTT plot을 그리면 다음과 같습니다.

 

이렇게 처음엔 고장률이 단위 TTT비율보다 부품의 고장개수 비율(i/n)이 많은 것을 알 수 있습니다.

좀더 알기 쉽게 하기 위해서 다음과 같이 수정해봅시다.

 

 

좀더 해석하기 쉽게 하기 위해서 y=x를 추가했습니다.

이제 확실히 보입니다. 

그래프 초반에는 단위 TTT비율보다 부품의 고장개수 비율(i/n) 이 더 많기 때문에 기울기가 작다가 점점 1:1 비율이 되는 순간 y=x의 기울기를 어느정도 유지하다 후반에는 TTT비율이 상승함으로 끝이납니다.

저 그래프의 고장률을 해석하면 초기에는 고장률이 점점 감소하다가 중반에는 서로 일정한 비율을 유지하고 종국에는 고장률이 다시 증가합니다.

 

이떄 고장률이 시간에 따라 증가하는 것을 증가형(IFR)이라 하고 i/n < TTT비율이 성립합니다.

다르게 시간에 따라 감소하는 것을 감소형(DER)라 하고 i/n > TTT비율이 성립합니다.

 


WRITTEN BY
&#48;

,

카이제곱 적합도 검정이란 검증량 Q 값이 카이제곱 분포를 따른다는 뜻입니다.

 

먼저 적합도 검정에 대해 쉽게 말하자면... 모나미양은 볼펜을 만드는 회사에서 품질관리를 하고있습니다. 회사에서 새로운 신제품을 출시했는데 이 제품이 고장이 너무 많이 생긴다는 클레임이 여러 곳에서 들어왔습니다. 그래서 모나미양은 제품 출시부터 고장날 때까지의 시간 표본들을 수집하여 분석해봤더니 이 고장 표본들이 지수분포를 따르는것같습니다. 이 때 그러면 모나미양은 고장분포를 지수분포라고 논리적으로 상사에게 보고할 수 있을까요? 무엇을 근거로 보고를 할까요? 이 때 모나미양에게 필요한 통계학 도구가 바로 카이제곱 적합도 검정입니다. 표본을 구했을 때 이 표본은 어떠한 분포로부터 나왔을 겁니다. 지수분포, 와이블 분포, 포아송 분포 등등.. 그런데 그 분포가 뭔지 모르니까 카이제곱 정규성 검정으로 처음에 생각한 표본이 맞는지 아닌지 따져볼 수 있습니다.

 

그러면 검정량 Q는 뭐고 어떻게 구하고 카이제곱 분포를 따른다는 그 의미는 뭘까요??

 

먼저 검정량 Q에 관한 중요한 정리가 있습니다.

 

실제 증명은 limiting probability지식을 요구하기 때문에 증명하지 않고 일단 요것이 이렇다는 것말 알아두면 됩니다.

 

그러면 저 정리를 분석해봅시다.

 

여기서 X1, X2... 은 관측도수입니다.

예를들어 주사위를 40번 던져서 눈이 1이 나온게  8번이라고 한다면 X1은 8이 됩니다.

또한 n은 시행 횟수가 됩니다. 마지막으로 P1은 주사위 눈이 1이 나올 확률 즉, 1/6이 되겠네요

그러면 당연히 n*P1은 주사위 눈이 1이 나올 기댓값 n*P2는 주사위 눈이 2가 나올 기댓값 이렇게 됩니다.

확장해서 X1-n*P1 의 의미는 실제 관측도수를 기댓값으로 빼버린 것이지요

그러면 무엇을 얻을 수 있을까요?

바로 기댓값에서 얼마나 엇나났는지를 확인할 수 있습니다. 여기서 제곱을 해준것은 음수도 나올 수 있기 때문에 제곱을 해준것이며 마지막 기댓값으로 나눠준 것은 이 엇나감이 기댓값과 비례해서 어느정도 크기로 차이가 나는지 나타냅니다.

근대 여기서 중요한게 있습니다. 바로 마지막 점근적으로 자유도가 K-1인 카이제곱분포를 따른다.. 이 뜻은 n이 작으면  조금 안맞지만 n이 커질수록 카이제곱 분포를 따른다는게 됩니다.

 

그러면 그 엇나감이 모인 Q라는 검증량은 무엇을 의미할까요?

이 검증량 Q를 이해하기 위해서 예를 들어봅시다. 어떤 지역에서 60일 동안 도난 사건을 관측했더니 다음과 같은 결과를 보입니다.

 

도난건수 0회 1회 2회 3회 4회 이상
관찰도수 27 18 12 3 0

 

이때 하루에 발생하는 도난건수가 포아송분포를 따르는지 검증해봅시다.

이 문제에선 포아송 분포라는 가정을 세웠는데 람다 값을 모르기 때문에 도난건수가 발생할 확률을 구할 수 없습니다. 따라서 최대우도함수를 사용하여 위에 자료를 토대로 람다를 구하여 확률을 추정을 해봅시다.

 

여기서 P3까지만 계산했는데 외냐하면 3회 이상부터는 값이 너무 작아서 2회 이상부터는 전부 합쳐버렸습니다.

 

 

그러면 Q값까지 구해졌습니다.

 

여기서 잘 생각해봅시다

 

만약 ... 만약에 Xi값과 기댓값인 nPi 값이 모든 i에 대해서 같으면 Q값은 0이 나오겠죠?

 

다르게 Xi값과 기댓값인 nPi 값이 모든 i에 대해서 매우 어긋나있으면 Q 값은 자연스럽게 큰값이 나옵니다.

 

그런데 더 잘생각해보면 애초에 저 위에 최대우도함수로 람다를 구할때도 확률을 구할 때도 전부 포아송 분포라는 근거로 계산했습니다.

 

이제 이해가 되나요? 어떠한 분포라는 것을 근거로 Q값을 구했는데 Q값이 크다면 근거 했던 분포가 틀리다는게 됩니다.

 

근대 여기서 한가지 의문점이 남네요 바로 Q값이 크다는 기준이 없습니다. 무엇을 기준으로 틀리다는걸 말할 수 있을까요?

 

여기서 문제를 다시 써야합니다.

 

 

다시 쓴 문제

 

 

도난건수 0회 1회 2회 3회 4회 이상
관찰도수 27 18 12 3 0

 

이때 하루에 발생하는 도난건수가 포아송분포를 따르는지 유의수준 5%로 검증해봅시다.

 

자 여기서 유의수준이 등장했습니다.

 

그러면 먼저 도난건수를 X라 하면 귀무가설과 대립가설부터 정의합니다.

 

H0 : X는 포아송분포를 따른다.

H1 : X는 포아송분포를 따르지 않는다.

 

그러면 위에서 구한 Q값은 카이제곱분포를 따른다고 했죠?

 

그러면 범주를 3개(0회, 1회, 2회이상)로 나눴으므로 k=3 그러면 k-1이 자유도니까 2가 되야겠죠?? 근대 문제가 있습니다. 위에서 최대우도함수를 사용했다는 거죠 이 뜻은 데이터로부터 파라메터를 추정해버렸다는 뜻이 되며 추가적으로 자유도 1을 깍아야합니다. 따라서 최종적으로 k-1-1=1이 자유도가 됩니다.

 

  

그러면 유의수준 0.05로 자유도가 1인 카이제곱 분포를 계산해본 결과 3.838이 나오네요

 

이 유의수준의  뜻은 저 위에 도난사건의 관찰이 극단적으로 나올 확률을 따지는 겁니다.

 

여기서 극단적으로 나왔다는 것은 도난사건이 관찰 60일까지 일어나지 않았다던지 매일 빠짐없이 도난 사건이 일어났다던지 그런 경우를 말하는 거죠

 

위에서 구한 Q값이 극단적으로 나올 확률은 약 28%정도가 되네요

 

그러면 상식적으로 생각해서 관찰을 60번이나 했는데 이 관찰값이 극단적으로 나올 경우가 더 많을까요 아니면 극단적으로 나오지 않을 경우가 더 많을까요??

 

당연히 극단적으로 나오지 않을 경우가 더 많을겁니다. 따라서 Q값이 3.838보다 작다는 것은 극단적으로 나올 확률이 5%라고 했을 때 극단적으로 나올 확률이 28%보다 5%를 택하는게 더 합리적이므로 가설 H0 즉, "X는 포아송분포를 따른다."를 택할 수 있습니다.


WRITTEN BY
&#48;

,

먼저 최대우도추정에 대해 이해하려면 우도의 개념을 알아야합니다.

 


 우도(Likelihood) = 가능도

우도의 개념은 책에서 나온 딱딱한 정의로는 머리속에 잘 넣어지지 않습니다.

실제로 복잡한 개념이기 때문에 예를 들어 설명하는게 훨씬 좋습니다.

 

장난꾸러기 짱구는 장난감을 부수는데 천부적인 재능이 있습니다 말 그대로 파괴왕이죠

 

어느날 짱구 아빠는 말성쟁이 짱구가 장난감을 파괴하는데 걸리는 시간을 알아보기 위해 짱구에게 장난감 20개를 주었습니다. 그리고 장난감의 생존(?) 시간을 측정했고 그 결과는 다음과 같습니다.

 

1 4 5 21 22 28 40 42 51 53
58 67 95 124 124 160 202 260 303 363

이때 짱구 아빠는 과연 짱구가 장난감을 파.괴.하.는 평균 시간을 구할 수 있을까요?

 

짱구 아빠의 고민을 덜어주기 위해서 사용되는게 우도함수입니다.

만약 짱구의 장난감 파괴확률이 지수분포를 따른다고 하면 우도함수는 이렇게 적을 수 있습니다.

 

지수분포에서 중요한 인수인 λ를 모르지만 일단 우도함수 λ에 아무 값이나 일단 넣어봅니다 그러면 신기하게 우도함수의 값이 구해지는데 이 값의 정체는 바로 가능성입니다.  바로 지수분포에서 인수 λ가 특정 값일 때 저 위의 파괴 시간들이 나올 가능성을 나타내는거죠 매우 중요하면서 심오한 개념입니다.

 

여기까지 이해하셨으면 드디어 최대우도함수의 개념을 이해할 수 있습니다. 위에서 보다 싶이 지수분포의 우도함수 값은 λ에 의해 결정됩니다. 그러면 λ값을 계속 바꿔보면 가능성이 최대가 되는 λ를 구할 수 있지 않을까요??

이 개념이 바로 최대우도함수의 핵심입니다.

그리고 이때 편미분의 개념이 사용됩니다.

생각해봅시다 만약 평균 파괴시간 λ값이 10이라고 하면 λ가 10에서 멀어지면 멀어질수록 저 측정결과 값들이 나올 가능성이 낮아지겠죠? 그리고 10에 가까우면 가까울수록 가능성을 커지고요

그러면 우도함수 자체는 극댓값 하나뿐인 함수가 됩니다.  

따라서 λ에 대해 편미분을 하고 그냥 0에 맞추는 λ값을 찾으면 그게 우도함수가 극댓값이 되는 λ값이란소리죠

 

위에서 우도함수에서 로그를 취해주는 이유는 그게 훨씬 계산이 편리하기 때문입니다.

 

그러면 이참에 짱구의 평균 장난감 파괴시간을 알아내어 짱구 아빠의 고민을 풀어주도록 합시다.

 

따라서 짱구는 장난감 한 개 파괴하는데 평균 101.15시간이 걸린다는 것을 알 수 있습니다.

 

 


WRITTEN BY
&#48;

,

확률에서 포함 배제의 원리는 간단히 말해서 여러개의 집합이 있으면 그 집합들 중 한개 이상이라도 실현될 확률을 말합니다.

예를 들어 봅시다.

어떤 RPG 게임에서 마왕을 잡기 위해서 용사는 다음과 같은 동료를 확률적으로 데려올 수 있다고합니다.

검사

전사

도적

마법사

의사

 

한 유저는 동료를 데려올 확률을 조사했고 결과는 다음과 같았습니다.

 

검사 80% 확률

전사  60% 확률

도적  90% 확률

마법사 60% 확률

의사 20% 확률

 

그리고 게임사가 이 RPG 게임을 만들 때 마왕을 잡을 수 있는 요소 조합을 정해놓았고 다음과 같은 조합이라고 합니다.

 

{검사, 전사, 도적}

{검사, 마법사}

{전사, 마법사}

{의사}

 

만약 용사는 각 동료 당 한번씩 밖에 교섭 시도를 못한다고 할 때  교섭이 전부 끝난뒤 마왕을 쓰러뜨릴 수 있는 확률은 얼마나 될까요?

 

이러한 계산을 할 때 편리하게 이용되는게 포함 배제의 원리입니다.

포함 배제의 원리는 저 조합들 중 한 조합이라도 맞출 확률 계산을 제공할 수 있습니다.

 

계산을 해보죠

먼져 각 조합을 다음과 같이 정의합시다

 

A={검사, 전사, 도적}

B={검사, 마법사}

C={전사, 마법사}

D={의사}

 

그러면 포함제외의 원리에 따라서 다음과 같은 수식으로 표현할 수 있습니다

 

그리고 계산하면 다음과 같습니다.

 

약 78%정도 되는 유저가 마왕을 잡을 수 있겠군요  나머지 마왕을 못잡는 22%유저는 안타깝지만 현금을 지르는 수밖에요


WRITTEN BY
&#48;

,

어떤 역을 운영하고 있는 역무원이 있다고 생각해봅시다 땡땡이 치기를 좋아하는 역무원은 문뜩 이런 생각이 들었습니다 " 1시간에 아무도 이 역 안으로 들어오지 않을 확률은 얼마일까?" 역무원은 궁금증을 풀기 위해서 기록을 시작했습니다.

 

기록을 하면서 역무원은 방문자가 1시간에 평균 60명 정도가 들어 왔다고 추정을 하였습니다 

그러면 이 역에 시간당 방문자 평균은 60가 되겠네요

역무원은 방문자의 분포를 이항분포로 정의했습니다. 이항분포에 따르면 평균값은 시행횟수 * 성공 확률로 정의되어있습니다. 여기서 시행 횟수는 시간이고 성공확률은 방문자가 특정 시간단위 안에 들어올 확률이 되겠네요

 

다시 위에서 1시간에 평균 방문자가 60명이니 이것을 다시 쓰면

 

평균 = 60 방문자/시간 이 될 수 있겠죠?

 

근대 같은 방식으로 이항분포에 따른 평균값은 시행횟수 * 성공확률로 정의되어 있었고 시간이 시행횟수라고 하였으니

이렇게도 쓸 수 있습니다 

 

평균 = 시행횟수 * 성공 확률

 

60 방문자/시간 = 60 분/시간 * (60/60) 방문자/분

 

이렇게 쉽게 분당 사람이 방문할 확률을 구했습니다

 

근대 이상한 점이 있네요 분당 사람이 방문할 확률이 60/60 즉 1로 나옵니다

즉, 무조건 1분마다 사람이 들어온다는 뜻이 되네요

 

역무원은 곰곰히 생각해보고 오류를 찾아냅니다 

1분안에 사람이 들어오기만 한다면 몇명이 들어오든 성공으로 친다는 사실이죠  

 

이러한 오류를 해결하기 위해서는 어떻게 해야할까요?

바로 단위 시간을 더 쪼개는 것입니다 분을 초단위로 바꾸는 거죠 

그러면 60 방문자/시간 = 3600 초/시간 * (60/3600) 방문자/초

 

즉, 성공확률이 1/60 방문자/초

1초마다 사람이 들어올 확률이 1/60이 됩니다. 

 

따라서 이항분포 값을 이용하면 다음과 같이 1시간동안 아무도 안올 확률을 구할 수 있습니다.

 

예상대로 확률이 엄청 적군요 그런데 위 식에는 맹점이 있습니다 바로 성공확률을 1초동안 역에 방문할 확률로 정의했다는거죠 만약 1초안에 2명 혹은 10명이 방문을 해도 한명이 방문했다는 것과 동일한 확률을 지닙니다 앞서 분으로 계산할 때와 동일한 오류가 생기는거죠

 

역무원은 이러한 사실도 반영하기 위해서 성공확률을 초 단위보다 더 세밀한 0.1초단위로 나눴습니다

 

60 방문자/시간 = 36000 (0.1초)/시간 * (60/36000) 방문자/(0.1초)

 

그런데 자세히보면 단위를 쪼개면 확률도 변화합니다 이건 당연한 현상입니다

왜냐하면 앞서 계산한 초단위 확률과 분단위 확률을 비교해보면 분단위 일때는 1이 나오므로 무조건 일어나는 사건이 됩니다 그러나 초단위 일때는 1/60확률로 60초가 지나서 똑같은 1분이 됬을때도 한명도 안들어올 확률이 여전히 존재하게 되는거죠

 

그러면 어떤 단위를 선택해야될까요?

0.1초 단위? 0.01초 단위는 어떨까요? 0.00000001초는??

그냥 복잡하게 하지 말고 단위 자체를 무한으로 쪼개는건 어떨까요?

이 아이디어가 바로 포아송 분포의 시작이 됩니다

 

계산 과정은 상당히 복잡하지만 다른 사이트에서도 쉽게 구할 수 있으니 생략하고 결론으로 이 두 수식에는 깊은 연관성이 있다는 것과 식의 의미을 알아차리는게 중요합니다

이항분포와 푸아송분포 식의 관계

포아송 분포는 측정 단위 자체를 무한으로 날려버렸으니 단위를 임의로 사용자 마음대로 지정할 수 있으며 횟수 자체도 큰수를 써도 단위에 구애받지 않게 됩니다.

 

역무원은 1시간당 들어온 평균 방문객수를 바탕으로 1시간 동안 1000명 들어올 확률도 구할 수 있게되었네요

그래도 여전히 1시간동안 아무도 안올확률은 매우 적지만요


WRITTEN BY
&#48;

,