17
Head First Statistics Ch.14 2 (Chi) 분포 2012. 6.30 chois79 12630토요일

Head first statistics14

Embed Size (px)

DESCRIPTION

Head first statistics14

Citation preview

Page 1: Head first statistics14

Head First Statistics Ch.14 𝝌2(Chi) 분포

2012. 6.30chois79

12년 6월 30일 토요일

Page 2: Head first statistics14

이 장에서는...

13장 가설 검증

영가설을 기준으로 검정 집단의 통계가 얼마나 발생하기 어려운 경우인지를 판단하여 가설을 검증

이 장에서는 결과를 분석

기대하는 것과 실제로 일어난 일의 차이를 분석하여 무엇인가 잘못되고 있다는 것을 판단

그럼 무엇이 다른가?

13장: 기하 분포, 이항 분포, 푸아송 분포를 따를 때

𝝌2 분포: 분포와 관계 없이 결과를 가지고 검증

12년 6월 30일 토요일

Page 3: Head first statistics14

뚱보 댄의 카지노슬롯머신

슬롯머신의 확률 분포

1000번 실행한 후 실제 결과

X (수입) -2 23 48 73 98

P(X=x) 0.977 0.008 0.008 0.006 0.001

X (수입) -2 23 48 73 98

도수 965 10 9 9 7

12년 6월 30일 토요일

Page 4: Head first statistics14

뚱보 댄의 카지노슬롯머신

관측도수 vs 기대도수X P(X=x) 관측 도수 기대 도수 (P(x) * 1000)

-2 0.977 965 977

23 0.008 10 8

48 0.008 9 8

73 0.006 9 6

98 0.001 7 1

12년 6월 30일 토요일

Page 5: Head first statistics14

𝝌2 검사기대되는 것과 실제로 얻게 되는 것 사이에 존재하는 차이를 평가

𝝌2 = 𝛴 (O - E)2 / E

O: 관측 도수

E: 기대 도수

뚱보 댄의 카지노 - 𝝌2

𝝌2 = (965-977)2/977 + (10-8)2/8 + (9-8)2/8 + (9-6)2/6 + (7-1)2/1 = 38.272

12년 6월 30일 토요일

Page 6: Head first statistics14

𝝌2 분포 2가지 주요한 용례

적합도

어떤 데이터의 집합이 어떤 분포에 얼마나 잘 맞는지 검사

독립성

두 변수의 독립성을 검사하는데 사용

𝝌2 분포

X2 ~𝝌2 (ν): 자유도 ν를 갖는 검정 통계 X2를 사용한다는 의미

ν(nu): 자유도

12년 6월 30일 토요일

Page 7: Head first statistics14

자유도 νν에 따른 𝝌2의 분포

그림에서 k는 ν를 의미

그림 출처: http://en.wikipedia.org/wiki/Chi-squared_distribution

자유도 ν의 의미

부과된 제약 사항을 고려하면서 우리가 계산해야만 하는 기대 도수의 수

ν = (클래스의 수) - (제약의 수)

Ex)

ν = 5 - 1 = 4

X (수입) -2 23 48 73 98

도수 977 8 8 6 1

12년 6월 30일 토요일

Page 8: Head first statistics14

𝝌2의 유의성이란?관측도수와 기대도수 사이에 존재하는 차이가 얼마나 유의한지를 의미

기각역은 상위 꼬리의 단측 검증을 사용

유의수준 ɑ를 이용해서 𝝌2 검정을 수행

P(𝝌2ɑ(ν) ≥ x) = ɑ

그림 출처: http://www.medcalc.org/manual/chi-square-table.php

𝝌2 확률 테이블을 사용하여 기각역을 구함

Ex) 자유도 4에 대한 유의수준 25%를 구함

12년 6월 30일 토요일

Page 9: Head first statistics14

𝝌2을 이용한 가설 검정가설 검정 단계

검정을 수행할 가설과 대립 가설을 설정

기대 도수와 자유도를 계산

결정을 내리는 데 사용할 기각역 설정

검정 통계 𝝌2을 계산

검정 통계가 기각역 안에 있는지 여부를 확인

결정

12년 6월 30일 토요일

Page 10: Head first statistics14

𝝌2을 이용한 가설 검정: 적합도 검정(Ex: 댄의 슬롯머신)

유의 수준 5%

영가설 설정

H0: 슬롯머신에서 금액을 딸 확률은 아래와 같은 확률 분포를 따름

기대 도수와 자유도 계산 및 5% 수준의 기각역 설정

자유도: 5 - 1 = 4

기각역 영역: 𝝌25%(4) = 9.49

검정 통계 계산 및 기각역 검증

𝝌2 = 𝛴 (O - E)2 / E = 38.272 > 9.49

결론

기각역 안에 존재하므로, 해당 슬롯 머신은 위와 같은 확률 분포를 따르지 않음

X (수입) -2 23 48 73 98

P(X=x) 0.977 0.008 0.008 0.006 0.001

12년 6월 30일 토요일

Page 11: Head first statistics14

𝝌2 적합도 검정대부분의 확률 통계에서 사용 가능

실제 관측을 기준으로 함

𝝌2 를 위한 자유도 설정분포 조건 ν(자유도)

이항 P를 알고 있을 경우P의 값을 모르고 있을 경우

n - 1n - 2

푸아송 𝜆의 값을 알고 있을 경우𝜆의 값을 모르고 있을 경우

n - 1n - 2

정규 평균과 분산을 알고 있을 경우평균과 분산을 모르고 있을 경우

n - 1n - 3

12년 6월 30일 토요일

Page 12: Head first statistics14

𝝌2을 이용한 독립성 검정어느 두 요소가 서로 독립인지를 검정

독립성 검정 단계

검정을 수행할 가설과 대립 가설을 설정

기대 도수와 자유도를 계산

단, 서로 독립이라는 가설에 근거하여 기대 도수를 계산

결정을 내리는 데 사용할 기각역 설정

검정 통계 𝝌2을 계산

검정 통계가 기각역 안에 있는지 여부를 확인

결정

12년 6월 30일 토요일

Page 13: Head first statistics14

뚱보 댄의 카지노블랙잭 - 쿠르피에(1/3)쿠르피에 한 사람이 실제보다 많은 돈을 잃고 있는가?

각 쿠프피에에 대한 관측 결과

만약 쿠르피에가 결과와 서로 관련이 없을 경우

P(승리) = 승리총합/전체총합 <= 승리한 비율

P(A) = A총합/전체총합 <= A가 게임한 비율

즉, 위의 2 확률이 서로 독립적

P(A가 이기는 비율) = P(승리) * P(A) = 승리총합/전체총합 * A총합/전체총합

기대 도수 = 전체 총합 * P(A가 이기는 비율) = 승리총합 * A총합 / 전체총합

쿠르피에 A 쿠르피에 B 쿠르피에 C

승리 43 49 22

무승부 8 2 5

패배 47 44 30

12년 6월 30일 토요일

Page 14: Head first statistics14

뚱보 댄의 카지노블랙잭 - 쿠르피에(2/3)관측 결과

기대 도수

𝝌2 = 𝛴 (O - E)2 / E = 5.004

쿠르피에 A 쿠르피에 B 쿠르피에 C 총계

승리 43 49 22 114

무승부 8 2 5 15

패배 47 44 30 121

총계 98 95 57 250

쿠르피에 A 쿠르피에 B 쿠르피에 C

승리 114*98/250 = 44.688 114*95/250 = 43.32 114*57/250 = 25.992

무승부 15*98/250 = 5.88 15*95/250 = 5.7 15*57/250 = 3.42

패배 121*98/250 = 47.432 121*95/250 = 45.98 121*57/250 = 27.588

12년 6월 30일 토요일

Page 15: Head first statistics14

뚱보 댄의 카지노블랙잭 - 쿠르피에(3/3)자유도 계산

ν = (클래스의 수) - (제약의 수) = 9 - 5 = 4

1%의 유의 수준에서 독립여부 확인

기각역 영역: 𝝌21%(4) = 13.28 > 5.00

결정

𝝌2이 기각역의 밖에 있으므로 서로 영가설을 받아 들임

쿠르피에 A 쿠르피에 B 쿠르피에 C

승리

무승부

패배

12년 6월 30일 토요일

Page 16: Head first statistics14

자유도 일반화열 1 ... 열 k-1 열 k

행 1

열 1

행 1

...

행 h-1

행 h-1

열 1 ... 열 k-1 열 k

행 1

...

행 h-1

행 h

ν = h - 1

ν = k - 1

ν = (h - 1) * (k - 1)

12년 6월 30일 토요일

Page 17: Head first statistics14

𝝌2 분포 2가지 주요한 용례

적합도

어떤 데이터의 집합이 어떤 분포에 얼마나 잘 맞는지 검사

독립성

두 변수의 독립성을 검사하는데 사용

𝝌2 = 𝛴 (O - E)2 / E

𝝌2 의 분포

자유도(ν)와 밀접한 관련이 있음

자유도(ν) = (h - 1) * (k - 1)

12년 6월 30일 토요일