50
1 情報統計学 確率分布 独立性 期待値と分散 正規分布 20120525 一部修正

K040 確率分布とchi2分布

Embed Size (px)

Citation preview

Page 1: K040 確率分布とchi2分布

1

情報統計学

確率分布独立性

期待値と分散正規分布20120525 一部修正

Page 2: K040 確率分布とchi2分布

2確率

• Aという結果が起きる確率→ Pr(A)と書く。

Page 3: K040 確率分布とchi2分布

3確率分布

• 確率分布その結果がどんな確率で起きるかをまとめたもの

離散型分布

連続型分布• 特定の値 aを取る確率は 0

• 幅をつけて考える

Page 4: K040 確率分布とchi2分布

4 累積分布関数 Cummulative Distribution Function, CDF

• 定義 確率変数 Xに対して

を確率変数 Xの累積分布関数という。• 確率密度関数

累積分布関数 F(x)が微分可能なとき,導関数

を確率変数 Xの(確率)密度関数 (probability density function, pdf)という。

確率密度関数があるときには,

Page 5: K040 確率分布とchi2分布

5分布関数の性質

Page 6: K040 確率分布とchi2分布

6関数のグラフ

• Rで関数のグラフを書く。 確率密度関数 累積分布関数

• curve curve(関数名 , 左端 , 右端 ) curve(sin, 0, 2*pi)

0 1 2 3 4 5 6

-1.0

-0.5

0.0

0.5

1.0

x

sin

(x)

• curve variation curve(sin, 0, 2*pi) curve(cos, 0, 2*pi) curve(sin, 0, 2*pi, add=T) curve(sin, 0, 2*pi, add=T, col=“red”)

plot(sin, 0, 2*pi)

Page 7: K040 確率分布とchi2分布

7関数を探す

• 正規分布 (normal distribution)

• 関数名に Normalが付くものを探すhelp.search(“Normal”)

• Normalの中に関連するものがありそうhelp(“Normal”)で使い方をみるまたは ?Normal

でもよい。

Page 8: K040 確率分布とchi2分布

8分布に関連する関数

• 分布名正規分布 normt -分布 tカイ 2乗分布 chisqF分布 f一様分布 unif二項分布 binomポアソン分 poi

• 関数名の頭文字p分布名 分布関数

Pr(X<x)d分布名 密度関数density function

q分布名 分位点quantile

r分布名 乱数 random number

Page 9: K040 確率分布とchi2分布

9標準正規分布 (standard Normal Distribution)

• 累積分布関数

• 確率密度関数

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

-4 -2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

x

pn

orm

(x)

curve(pnorm, -4, 4)

curve(dnorm, -4, 4)

Page 10: K040 確率分布とchi2分布

正規分布表の使い方

• 数表は「標準正規分布」 Z~ N(0,1)

Pr(Z<0.91)

Page 11: K040 確率分布とchi2分布

11

下側 α点qnorm関数qnorm(0.025, lower.tail = F) qnorm(0.025)

Page 12: K040 確率分布とchi2分布

標準化、偏差値• 標準化

• 偏差値

12

)1,0(~),(~ 2 NX

ZNXσ

µσµ −=⇒

)10,50(~5010

),(~

2

2

NX

NX

+×−=⇒σ

µσµ

偏差値

Page 13: K040 確率分布とchi2分布

演習

• Z~ N(0,1)、 X~ N(158,25)のとき次の確率を求めよ。

の値 となる

の値 となる

kkX

X

Z

Z

kkZ

Z

Z

Z

05.0)|158Pr(| )8

)160150Pr( )7

)2|Pr(| )6

)1|Pr(| )5

05.0)Pr( )4

)12Pr( )3

)1Pr( )2

)10Pr( )1

=>−<≤

><

=≥−<≤−

≤<≤

Page 14: K040 確率分布とchi2分布

14一様分布

• 確率密度関数

• 累積分布関数

curve(dunif, -0.5, 1.5)

-0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

x

duni

f (x)

curve(punif, -0.5, 1.5)

-0.5 0.0 0.5 1.0 1.5

0.0

0.2

0.4

0.6

0.8

1.0

x

pun

if (x

)

Page 15: K040 確率分布とchi2分布

二項分布 (Binomial distribution)

• 1回の試行 (実験 )で Aという事象が起きるか、                     起きないか

• A という事象が起きる確率が p、           起きない確率が q=1-p

• この試行をn回行ったとき、 Aが起きる回数をXとする。

• Xの分布を二項分布といい、 X~ Bi(n, p)と表す。

Page 16: K040 確率分布とchi2分布

二項分布 その2• Xの取り得る値  n回中の回数なので   0, 1, 2, …, n

• Pr(X=k) = Aがn回中k回起きる確率       = nCk pk(1-p)n-k

• 分布関数

=

=

−=

=≤=

][

0

][

0

)1(

)Pr()(

x

k

knkxn

x

kk

ppC

pxXxF

     

Page 17: K040 確率分布とchi2分布

二項分布 その3

• 二項分布 Bi(10,1/6)さいころを 10回振って、 1の目が出る回数Xの分布

kkk

knkkn

k

C

ppC

kXp

−=

−=

==

1010 )

6

11()

6

1(

)1(

)Pr(

  

  

0.1550454

)6

5()

6

1(

123

8910

)6

11()

6

1(

)3Pr(

73

3103310

3

=××××=

−=

==

  

  

   C

Xp

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

cdf

Page 18: K040 確率分布とchi2分布

二項分布 Bi(10,1/6)の分布関数

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

xx

pb

ino

m(x

x, 1

0, 1

/6)

階段関数 (step function)

> pbinom(x,10,1/6) [1] 0.1615056 0.4845167 0.7752268 0.9302722 0.9845380 0.9975618 0.9997325 [8] 0.9999806 0.9999992 1.0000000 1.0000000

Page 19: K040 確率分布とchi2分布

19シミュレーション (数値実験)  simulation

複雑な問題で式を求めるのが難しい費用がかかりすぎる・時間がかかりすぎる

• シミュレーションとは乱数を使って理論的な結果を検証理論的には結果を得ることが難しい内容を求めること

• 乱数Rでは

• 乱数は,分布名に rをつけたもの• 例:一様乱数  runif•   正規乱数 rnorm

Page 20: K040 確率分布とchi2分布

20正規乱数  rnorm

• 正規分布に従う乱数• rnorm(個数)• 例えば

rnorm(100)

• hist(rnorm(100), freq=F)• curve(dnorm, add=T)

Histogram of rnorm(100)

rnorm(100)

De

nsi

ty

-3 -2 -1 0 1 2

0.0

0.1

0.2

0.3

0.4

Page 21: K040 確率分布とchi2分布

21円周率のシミュレーション

• 一辺の長さ 1 の正方形 面積 1

• 半径 1 の 1/4円 面積 π/4

そういう点を n個発生させる

• 1/4円内の点の個数を m• 全体の点の個数を n

m/n π/4≒

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

circ

(x)

• 区間 [0, 1]の一様乱数を 2個 それを x座標, y 座標とする点 P (x, y)を考える

• その点は正方形の中• さらに 1/4円の中に落ちる比率は1: π/4

Page 22: K040 確率分布とchi2分布

22

circ <- function(x) sqrt(1 - x^2) curve(circ, 0, 1) lines(c(1, 0), c(0, 0)) lines(c(0, 0), c(1, 0))

> sim.pi(1000)

Type <Return> to start simulation : 788 of 1000 in the circle.

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Page 23: K040 確率分布とchi2分布

条件付確率 (conditional prob.)• 事象 Aが起きたという条件の下で事象 Bが起きる確率を考える

• 例 女性で身長が170cm以上

)Pr(

)Pr()|Pr(

A

BAAB

∩=

0082.0485.0

03976.0

)Pr(

)170.0Pr()|170.0Pr(

==

≥=≥

          

女性 かつ 女性身長女性身長

A

B

Page 24: K040 確率分布とchi2分布

独立事象• 条件付確率が条件に無関係のとき

2つの事象は独立という

)Pr()Pr()Pr(

)Pr()Pr(

)Pr()|Pr(

)Pr()|Pr(

BABA

BA

BAAB

BAB

=∩

=∩=

=

Page 25: K040 確率分布とchi2分布

条件付分布• X=xという条件の下での Yの分布

)|()(

)|()(),(

)(

),()|(

)Pr(

)Pr(

)|Pr()|(

yxfyg

xygxfyxh

xf

yxhxyg

xX

xXandyY

xXyYxyG

==

=

==<=

=<=

    

      

Page 26: K040 確率分布とchi2分布

独立性• 2 つの確率変数 X, Y が独立

分布関数

密度関数

)()(),(

)()(

)Pr()Pr(

),Pr(),(

ygxfyxh

yGxF

yYxX

yYxXyxH

=

=<<=

<<=

        

Page 27: K040 確率分布とchi2分布

期待値 (Expectation)

• データの平均(代表値、どんな値)

• 確率変数(分布)の期待値(どんな値)

n

xxxx

xxx

n

n

+++=

21

21

:mean

,,,:data

kk

k

k

papapaXE

ppp

aaa

+++=

2211

21

21

)(:

,,,:

,,,:

平均

各値の確率取り得る値

Page 28: K040 確率分布とchi2分布

確率分布    度数分布表

値 確率

a1 p1

a2 p2

ak pk

合計 1.00

階級 階級値 相対度数

a0~a1 m1 f1a1~a2 m2 f2

ak-1~ak mk fk合計 1.00

kk

kk

fmfmfmx

papapaXE

+++=+++=

2211

2211)(

  

Page 29: K040 確率分布とchi2分布

期待値と分散

22

2

22

)}({)(

)()}({

)}({)())(()(

)()())((

)()(

)(

)(

XEXE

dxxfXEx

XExxXEXEXV

X

dxxfxXE

dxxfxXE

X

Xxf

X

−=

−=

−=−=

=

=

∫∫

∞−

∞−

∞−

     

     

     の分散

  

   

平均の期待値

の密度関数     確率変数

φ

φφ

離散型の場合は積分の代わりに和 (Σ) を使う

Page 30: K040 確率分布とchi2分布

主な分布の期待と分散

2

2

2

)(,)(

),(~

12/)()(,2/)()(

),(~

)(,)(

)(~

)(,)(

),(~

σµσµ

λλλ

==

−=+=

==

==

XVXE

NX

abXVbaXE

baUX

XVXE

PoX

npqXVnpXE

pnBiX

     

    

    

    

Page 31: K040 確率分布とchi2分布

情報統計学

χ2 分布t 分布F 分布

31

Page 32: K040 確率分布とchi2分布

32標本分布

• 正規分布から導かれる分布χ2 分布

t分布

F分布

Page 33: K040 確率分布とchi2分布

33χ2 分布

• 自由度 mの χ2 分布確率密度関数

•E(Y)=m•Var(Y)=2m

Page 34: K040 確率分布とchi2分布

34χ2 分布

• 確率変数 Zが標準正規分布 N(0,12) に従っているとき,Y = Z2

の分布は自由度 1 の χ2 分布に従う。

• 確率変数 X1, X2, …, Xn が互いに独立で, Xi が正規分布 N(0,12) に従うとき,

Z = X12 + X2

2 + … + Xn2

は自由度 n の χ2 分布に従う。

Page 35: K040 確率分布とchi2分布

35χ2 分布の確率密度関数のグラフ

• 自由度 1 , 2 が特殊

curve(dchisq(x,1), 0, 10, col = 1) #1 は黒 curve(dchisq(x,2), 0, 10, col = 2, add = TRUE) #2 は赤 curve(dchisq(x,3), 0, 10, col = 3, add = TRUE) #3 は緑 curve(dchisq(x,5), 0, 10, col = 4, add = TRUE) #4 は青

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

dch

isq

(x, 1

)

Page 36: K040 確率分布とchi2分布

36シミュレーションによる導出

• 標準正規分布を2乗すると χ2 分布になることを乱数を使って確かめる1. 正規乱数 zを 1 つ取る2. y=z2 を計算する3. これを n回繰り返し, yの値を n個とる4. Y の分布を図示し,理論的なものと比較する

> nrdata <- rnorm(1000)> summary(nrdata) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.34300 -0.66630 0.11250 0.05922 0.75260 3.16000

> sd(nrdata) [1] 1.025253

> hist(nrdata)

Histogram of nrdata

nrdata

Fre

quen

cy

-3 -2 -1 0 1 2 3

050

100

150

200

Page 37: K040 確率分布とchi2分布

37nr2data <- nrdata^2

mean(nr2data)

sd(nr2data)

hist(nr2data, freq = F)

curve(dchisq(x,1), 0, 9, col = 2, add = T)Histogram of nr2data

nr2data

Den

sity

0 2 4 6 8 10 12

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Page 38: K040 確率分布とchi2分布

38レポート

1. Xが自由度 mの χ2 分布に従い, Yが自由度 nの χ2 分布に従って,互いに独立であれば

Z = X + Y

の分布は,自由度 (m+n) の χ2 分布に従う。 再生性というが,このことをシミュレーションを使って確認

せよ。

2. 正規分布も再生性を持つ。このことをシミュレーションを用いて確かめよ。

Page 39: K040 確率分布とchi2分布

t 分布

• 密度関数のグラフは curve(dt(x, 10), -4, 4)

39

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

Page 40: K040 確率分布とchi2分布

t分布と正規分布の確率密度関数

• curve(dt(x, 10), -4, 4)• curve(dt(x, 2), -4, 4, col = 2, add = TRUE)

• curve(dnorm, -4, 4, col = 3, add = TRUE)

40

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

Page 41: K040 確率分布とchi2分布

t分布のパーセント点

> qt(0.05, 5)

> qt(0.05, c(1, 2, 3, 4, 5, 10, 20, 50, 100))

[1] -6.313752 -2.919986 -2.353363 -2.131847 -2.015048 -1.812461 -1.724718

[8] -1.675905 -1.660234

> qt(c(0.05, 0.95), 5)

[1] -2.015048 2.015048

> pt(2.015048, 5)

[1] 0.95

41

Page 42: K040 確率分布とchi2分布

シミュレーション 1

nrdata <- rnorm(1000)

chi2data <- rchisq(1000, 10)

hist(chi2data)

tdata <- nrdata / (sqrt(chi2data / 10))

mean(tdata)

sd(tdata)

curve(dt(x, 10), -4, 4, col = 2)

hist(tdata, freq = F, add=TRUE)

42

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

Page 43: K040 確率分布とchi2分布

シミュレーション 2 43

Page 44: K040 確率分布とchi2分布

44

Page 45: K040 確率分布とchi2分布

45

Page 46: K040 確率分布とchi2分布

tcalc <-function(x){

barx <- mean(x)

sdx <- sd(x)

tval <- barx / (sdx / sqrt(length(x)))

tval

}

ran <- sapply(rep(10, 1000), rnorm)

sample.t <- apply(ran, 2, tcalc)

hist(sample.t, nclass = 20, freq = F)

curve(dt(x, 9), -4, 4, col = 2, add = T)

46

Histogram of sample.t

sample.t

De

nsi

ty

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

Page 47: K040 確率分布とchi2分布

F分布 47

Page 48: K040 確率分布とchi2分布

F分布の密度関数

> curve(df(x,1,10),0.00000001,5,ylim=c(0,1.5))

> curve(df(x,2,10),0.00000001,5,col=2,add=T)

> curve(df(x,3,10),0,5,col=3,add=T)

> curve(df(x,8,10),0,5,col=4,add=T)

> curve(df(x,8,20),0,5,col=5,add=T)

48

0 1 2 3 4 5

0.0

0.5

1.0

1.5

x

df(

x, 1

, 10)

Page 49: K040 確率分布とchi2分布

シミュレーション

> c8rand <- rchisq(1000, 8)

> c10rand <- rchisq(1000, 10)

> fprop <- (c8rand / 8) / (c10rand / 10)

> hist(fprop, nclass = 20, freq = F)

> hist(fprop, nclass = 20, freq = F)$count

> curve(df(x,8,10), 0, 5, col = 2, add = TRUE)

49

Page 50: K040 確率分布とchi2分布

Histogram of fprop

fprop

De

nsity

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

50