16
分割表と 検定 2013/7/6 統計勉強会 Day5 永安

統計勉強会 分割表とカイ二乗検定

Embed Size (px)

Citation preview

Page 1: 統計勉強会 分割表とカイ二乗検定

分割表と 検定

2013/7/6統計勉強会 Day5

永安

Page 2: 統計勉強会 分割表とカイ二乗検定

ここでの目的

• 連続値ではない観測値について、有意な差があるのかどうかを調べたい。

– 順序尺度:満足度1~5、優・良・可・不可、など

– 名義尺度:男・女、発生した・しなかった、など

• 理論値と(有意な)差があるか?

• 二つ(以上)の集団で(有意な)差があるか?

Page 3: 統計勉強会 分割表とカイ二乗検定

検定の方法3つ• 適合度検定

– 標本から求められる度数分布と、理論的な分布が同一かどうかを検定する

• 独立性の検定– 観測結果が二つの異なった要因で分類できる状況で、異なる要因が

互いに独立である(=相手の影響を受けていない)かどうかを調べる。– 「原因と結果」になりそうなものの関係性。

• 同等性の検定– 独立性の検定と形式的には同等。– 帰無仮説と対立仮説の立て方が逆になる。– 「差があるとは言えない」ではなく、「同じである」ことを検定。

Page 4: 統計勉強会 分割表とカイ二乗検定

【復習】 分布とは

• 【復習】 統計量の計算方法

– = + +⋯+= ( − ) + ( − ) +⋯+ ( − )= ∑ ( − )

Page 5: 統計勉強会 分割表とカイ二乗検定

統計量

• 統計量の計算方法

– = + +⋯+= ∑ ( )• : 観測された頻度

• : 仮説のもとで期待される頻度

• 自由度 : 分割数− 1

Page 6: 統計勉強会 分割表とカイ二乗検定

①適合度検定

• ある事象の理論的確率(古典的確率)を基準に、経験的確率(統計的確率)の「バラつき」を算出する。

• 算出したバラつきについて、有意な大きさかどうか(=偶然ではないと言えるか)を検定する。

• サイコロの例:– サイコロの目が平等に出ていない、ということを検定したい場合

– 帰無仮説 :すべての目が平等に出る

– 対立仮説 :目が不平等に出る

– バラつきの総和( 統計量)を計算し、臨界値を超えていれば、「有意なレベルで出る目が平等ではない」と言える。(=帰無仮説を棄却)

Page 7: 統計勉強会 分割表とカイ二乗検定

適合度検定:サイコロの例

• 300回サイコロを投げた場合の例

統計量 = 9.52有意水準1%、自由度5の臨界値 = 15.09 < なので、 は棄却できない。

→出目が不平等とは言えない。

1 2 3 4 5 6

58 43 61 38 57 43

50 50 50 50 50 50( − ) 64 49 121 144 49 49( − ) / 1.28 0.98 2.42 2.88 0.98 0.98

Page 8: 統計勉強会 分割表とカイ二乗検定

②独立性の検定

• 別々の要素が互いに影響を及ぼしているかどうかを調べる。• 理論的な確率(同時確率)が、観測値とどれくらい離れているかを検定。

• 歴史と統計の成績の例– 帰無仮説 :歴史と統計の成績は独立である(関係ない)– 対立仮説 :歴史と統計の成績は独立ではない(互いの影響を受けている)

• 周辺確率– 個別の事象が発生する確率

• 例:P(歴史の成績が良)

• 同時確率– 二つ以上の事象が同時に発生する確率

• 例:P(歴史の成績が良 | 統計の成績が優)

– 周辺確率の積として求められる

Page 9: 統計勉強会 分割表とカイ二乗検定

独立性の検定:周辺確率の算出

• 観測値 を記入する

• 周辺確率を求める(標本サイズ117を1.00とする)

歴史\統計 優 良 計

優 24 41 65

良 14 38 52

計 38 79 117

歴史\統計 優 良 計

優 0.56

良 0.44

計 0.32 0.68 1.00

Page 10: 統計勉強会 分割表とカイ二乗検定

独立性の検定:理論値の算出

• 同時確率(理論値 の確率)を求める

• 理論値 (頻度)を求める(標本サイズ117を掛ける)

歴史\統計 優 良 計

優 0.18 0.38 0.56

良 0.14 0.30 0.44

計 0.32 0.68 1.00

歴史\統計 優 良 計

優 21.1 43.9 65

良 16.9 35.1 52

計 38 79 117

Page 11: 統計勉強会 分割表とカイ二乗検定

独立性の検定:観測値と理論値

• 観測値 (頻度=人数)

• 理論値 (頻度=人数)

歴史\統計 優 良 計

優 24 41 65

良 14 38 52

計 38 79 117

歴史\統計 優 良 計

優 21.1 43.9 65

良 16.9 35.1 52

計 38 79 117

Page 12: 統計勉強会 分割表とカイ二乗検定

独立性の検定: 検定

• すべての要素を並べて、観測値と理論値との偏差を計算、総和をカイ二乗検定する

自由度 = 分割数 − 1 (分割数 − 1)統計量 = 1.33

有意水準10%、自由度1の臨界値 = 2.7 < なので、 (成績は独立である)は棄却できない。

→成績が独立でない(=関係している)とは言えない。

歴史\統計 優・優 優・良 良・優 良・良

24 41 14 38

21.1 43.9 16.9 35.1( − ) / 0.40 0.19 0.50 0.24

Page 13: 統計勉強会 分割表とカイ二乗検定

その他のキーワード

• フィッシャーの直接確率検定(正確確率検定)– 2 x 2分割表(自由度1、2変数)の場合

– 標本数が小さい(分割表のセルの期待値に10未満のものがある)場合

– 表中の数値の偏りが大きい場合にはカイ二乗近似は不正確。この場合には正確確率検定

– 標本数が大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)にはカイ二乗検定

• イェーツの連続性の補正– 同時確率と観測確率の差を小さくするように、0.5ずつ補正する

– 原則として2×2分割表ではYatesの連続補正を使う(?)

Page 14: 統計勉強会 分割表とカイ二乗検定

③同等性の検定

• 積極的に「同じである」ことを検定したい場合に用いる– 「違いがあるとは言えない」ではなく

• 仮説の設定– 帰無仮説 :母集団Aと母集団Bは同じである

– 対立仮説 :母集団Aと母集団Bは異なっている

Page 15: 統計勉強会 分割表とカイ二乗検定

いろいろ除外してみた

• 各年齢層を除外して同等性の検定を行う

– :各年齢層で所得と労働時間の考え方は同一

– :各年齢層で考え方が異なる

– :23.21

除外対象 ~19歳 ~29歳 ~39歳 ~49歳 ~59歳 ~69歳 70歳~

統計量 19.28 25.22 24.10 23.20 25.85 21.74 24.54

臨界値 < < < < < < <を棄却 × ○ ○ × ○ × ○

年齢層で 異なる 異なる 異なる 異なる

Page 16: 統計勉強会 分割表とカイ二乗検定

例題:A/Bスプリットテスト

あるWebサービスのユーザ登録用のランディングページを改良し、A/Bスプリットテストを実施した。

<問1>• 以前のデザインのページ

– 10,450アクセス、ユーザ登録167件、コンバージョンレート1.60%• 新しいデザインのページ

– 8,445アクセス、ユーザ登録153件、コンバージョンレート1.81%コンバージョンレートを考えた時、新デザインのページに有意な改善

があったと言えるか。有意水準5%で検定せよ。

<問2>サンプルサイズが10倍になったらどうか。アクセス数10倍、ユーザ

登録数10倍、有意水準1%として再度検定せよ。