Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
기초통계분석 모비율추론(일집단)
두 모집단 평균 차이 추론 개념
독립 집단 independent
두 모집단 서로 독립
(짝진 집단) paired
짝진과 표본 구별방법 - 조사설계방법에 따라 다름
•사람의 양발 길이의 차이가 있나? 20명의 임의로 택하여 각자의 왼발 길이, 오른발 길이를 잰 후 동일 사람에 의해 match 시키느냐? (짝진) 발길이를 다르게 활용하느냐? (독립)
•MBA 전공 중 재무(finance) 전공과 마케팅 전공의 초봉의 차이가 있나? H대학 MBA 전공자 중 재무 20명, 마케팅 전공 20명을 각각 임의로 선택하여 초봉을 각 집단 “독립” 집단, GPA 성적군을 나누어 (4.5~4.25, 4.25~4,… ) 각 군에서 한 명씩 임의 선택하여 초봉을 조사하면 “짝진” 집단
관심모수
•독립 모집단 : / 짝진 모집단 (일변량 모평균=0 검정과 동일)θ = (µ1 − µ2 ) θ = µd = µ1 − µ2
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page1 6
확률표본 (iid) = 서로 독립이고 동일분포에서 추출
xi ~ f (x;µ1)
population1 X~f(x;μ1)
sample1 xi~f(x;μ1)
데이터
x1 = 12, x1 = 17, x3 = 21,..., xn = 3
population2 Y~g(y;μ2)
sample2 yi~f(y;μ2)
y1 = 19, y2 = 21, y3 = 15,..., ym = 2
yi ~ g(y;µ2 )
데이터
population x~f(x)
sample1 x1i~f(x;μ1)
sample2 x2i~f(x;μ2)
(x11, x12,..., x1n )(x21, x22,..., x2n )
di = (x1i − x2i )
기초통계분석 모비율추론(일집단)
MVUE for
(독립 집단)
•두 표본평균의 차이 :
•MVUE 평균과 분산 : - 관심 모수는 이므로 또 다른 모수 모집
단 분산 은 보조 ancillary 모수이고 추정하여 사용함
(짝진 집단)
•두 표본평균의 차이 :
•MVUE 평균과 분산 : ,
MVUE 샘플링분포
(독립 집단)
•대표본 : 중심극한정리 , (모분산 모를 때)
•소표본 : 모집단 정규분포 가정 하에, (이분산)
(동일분산, 통합(pooled)분산 )
🔵 두 모집단 분산 동일성 검정 : to test - 귀무가설 채택되면
통합분산 사용한 t-통계량 사용
(짝진 집단)
•일집단 평균 추론과 동일
θ = µ1 − µ2
θ̂ = µ1 − µ2^
= x − y =xi∑n
−yi∑
m
E(θ̂ ) = µ1 − µ2,V (θ̂ ) =σ 12
n+ σ 2
2
m(µ1,µ2 )
(σ 12,σ 2
2 )
θ̂ = µ1 − µ2^
= D =di∑n
E(θ̂ ) = µd V (θ̂ ) =σ d2
(x − y ) ~ N(µ1 − µ2,σ 12
n+ σ 2
2
m) ~ N(µ1 − µ2,
s12
n+ s2
2
m)
(x − y )− (µ1 − µ2 )s12
n+ s2
2
m
~ t(df = complicated)
(x − y )− (µ1 − µ2 )
sp2 (1n+ 1m)
~ t(df = n +m − 2) sp2 = (n −1)s1
2 + (n −1)s22
n +m − 2
TS = max(s12, s2
2 )min(s1
2, s22 )~ F(df1,df2 ) H0 :
σ 12
σ 22 = 1
d − µd
s(d) / n~ t(n −1)
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page2 6
기초통계분석 모비율추론(일집단)
100(1-α)% 신뢰구간
독립집단 :
짝진집단 :
가설검정
1) 귀무가설 : (두 모집단 평균은 동일하다)
2) 대립가설 : (차이가 있다)
3) 검정통계량 및 유의확률 계산
(독립, 소표본=데이터 정규분포 가정) - 동일 모분산
(독립, 소표본=데이터 정규분포 가정) - 이분산
(짝진 표본)
데이터 검증
(독립 집단)
1) 이상치 진단 및 해결 : 상자-수염 그림 (치우침을 볼 수 있으므로 굳이 히스토그램을 그릴 필요가 있나?) 먼저 그려 치우침과 이상치 진단을 동시에 하자. 정규성 검정은 두 집단 표본 데이터 함께 해도 무방
2) 치우침이 있다면 소표본인 경우 정규성 검정 및 해결 : 각각 표본 데이터 정규성 검정
• 대표본일 경우는 정규성 검정이 필요 없음 - 치우침이 있다면 정규변환
•한 집단만 만족하는 경우? 동일 확률변수를 관측한 데이터이므로 가능성 없음
(짝진 집단)
1) 관측치 에 대한 정규성, 이상치 진단
•실제에서는 (1) 상자수염 그리고 (2) 치우침이 있다면 정규성 검정 -> 문제 해결 순서는 먼저 치우침 해결 후 이상치 문제 해결
(x − y )− t(1− α2)* s1
2
n+ s2
2
m< (µ1 − µ2 ) < (x − y )+ t(1−
α2)* s1
2
n+ s2
2
m
(d )− t(1− α2)* s(d)
n< (µ1 − µ2 ) < d + t(1− α
2)* s(d)
n
H0 :µ1 − µ2 = 0
H0 :µ1 − µ2 ≠ / > / < 0
TS = (x − y )− (µ1 − µ2 )
sp2 (1n+ 1m)
~ t(df = n +m − 2)
TS = (x − y )− (µ1 − µ2 )s12
n+ s2
2
m
~ t(df = complicated)
TS = d − µd
s(d) / n~ t(n −1)
di = (xi − yi )
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page3 6
기초통계분석 모비율추론(일집단)
예제 Keller “Managerial Statistics” 9th edition 💾 milk.csv
1. 연구문제 및 통계적 문제 정의
•시애틀의 우유 가격은 다른 대도시에 비해 높은가? 독립인 두 모집단 평균 차이 검정 문제
2. 표본 데이터 검증
1) 집단별 상자-수염 그림
•이상치 진단 : 없음
•치우침은 없어 보임
2) 정규성 검정 : ad-통계량, 정규분포 따름
3) 모분산 동일성 검정 : - 귀무가설 채택,
등분산임 - 통합분산 사용 가능
3. 통계적 가설 설정
•귀무가설 : 시애틀과 아틀란타 우유 값은 동일하다.
•대립가설 : 시애틀 우유값이 아틀란타보다 높다.
4. 검정통계량 및 유의확률 계산
커피로 인해 우유 소비가 많은 시애틀이 다른 대도시(아틀란타)에 비해 높은지 알아보기 위하여 다음 조사를 하였다. 각 도시의 H-mart에서 팔리는 우유 값을 관찰하였다.
H0 :σ 12
σ 22 = 1
µ1 − µ2 = 0
µ1 < µ2
ds=read.csv("milk.csv") ds0=stack(ds)[-40:-42,] #데이터 stack, NA 관측치 삭제 attach(ds0); names(ds0) boxplot(values~ind,horizontal=T,notch=T) #box-plot by group library(nortest); ad.test(values) #Normality Test var.test(values~ind) #equal variance t.test(values~ind,equal=T,alternative=c("less")) #t-test one-side alternative by(values,ind,sd) #sd calculation by group
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page4 6
기초통계분석 모비율추론(일집단)
5. 결론 및 활용
•시애틀 우유 가격은 평균 2.52, 아틀란타는 2.38로 커피로 인하여 유유를 많이 사용하는 시애틀의 유유 값이 높다. (유의적으로 높음)
예제 Keller “Managerial Statistics” 9th edition 💾 tvad.csv
1. 연구문제 및 통계적 문제 정의
•광고 효과? 광고 후 제품 인지도가 높아졌나? 짝진(동일 고객 전후) 두 모집단 평균 차이 검정 문제
2. 표본 데이터 검증
1) 집단별 상자-수염 그림
•이상치 진단 : 있음 - 삭제
•치우침은 없어 보임
2) 정규성 검정 : ad-통계량, 정규분포 따름
> t.test(values~ind,equal=T,alternative=c("less")) Welch Two Sample t-test data: values by ind t = -3.8022, df = 36.751, p-value = 0.0002616 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.07804617 sample estimates: mean in group Atlanta mean in group Seattle 2.381111 2.521429
> by(values,ind,sd) ind: Atlanta [1] 0.1012794 --------------------------------------------------------- ind: Seattle [1] 0.1289684
집단 평균(M) 표준편차(SD) 통계량
(유의수준)
95% 신뢰구간
시애틀 2.52 0.129 3.80 (-, -0.078)
아틀란타 2.38 0.101 0.0003
TV 광고 효과를 보기 위하여 광고 전과 후에 제품 인지도를 10점 척도로 조사하였다. 광고 효과가 있나?
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page5 6
기초통계분석 모비율추론(일집단)
3. 통계적 가설 설정
•귀무가설 : 광고 효과는 없다.
•대립가설 : 광고 효과는 있다.
4. 검정통계량 및 유의확률 계산
5. 결론 및 활용
•광고로 인하여 제품에 대한 고객 인지도가 3.58점 올랐다. (광고 효과 있음)
µ1 − µ2 = 0
µ1 < µ2
ds=read.csv("TVAD.csv") attach(ds); ds$diff=before-after boxplot(ds$diff) #box-plot boxplot(ds$diff)$out ds$diff[c(-5)] #delete outlier library(nortest) ad.test(ds$diff[c(-5)]) #Normality Test t.test(ds$diff[c(-5)],mu=0,alternative=c("less")) #t-test mean(ds$before[c(-5)]);sd(ds$after[c(-5)]) sd(ds$before[c(-5)]);sd(ds$after[c(-5)])
> t.test(ds$diff[c(-5)],mu=0,alternative=c("less")) #t-test One Sample t-test data: ds$diff[c(-5)] t = -4.2762, df = 10, p-value = 0.0008106 alternative hypothesis: true mean is less than 0 95 percent confidence interval: -Inf -0.8380356 sample estimates: mean of x -1.454545 > sd(ds$diff[c(-5)]) [1] 1.128152 > mean(ds$before[c(-5)]);sd(ds$after[c(-5)]) [1] 5.090909 [1] 1.507557 > sd(ds$before[c(-5)]);sd(ds$after[c(-5)]) [1] 1.513575 [1] 1.507557
집단 평균(M) 표준편차(SD) 통계량
(유의수준)
95% 신뢰구간
광고 전 1.51 1.51 4.28 (-, -0.838)
광고 후 5.09 1.51 0.0008
한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr
/ Page6 6