統計勉強会分割表とカイ二乗検定

分割表と検定

2013/7/6統計勉強会 Day5

永安

ここでの目的

• 連続値ではない観測値について、有意な差があるのかどうかを調べたい。

– 順序尺度：満足度1～5、優・良・可・不可、など

– 名義尺度：男・女、発生した・しなかった、など

• 理論値と（有意な）差があるか？

• 二つ（以上）の集団で（有意な）差があるか？

検定の方法3つ• 適合度検定

– 標本から求められる度数分布と、理論的な分布が同一かどうかを検定する

• 独立性の検定– 観測結果が二つの異なった要因で分類できる状況で、異なる要因が

互いに独立である（＝相手の影響を受けていない）かどうかを調べる。– 「原因と結果」になりそうなものの関係性。

• 同等性の検定– 独立性の検定と形式的には同等。– 帰無仮説と対立仮説の立て方が逆になる。– 「差があるとは言えない」ではなく、「同じである」ことを検定。

【復習】分布とは

• 【復習】統計量の計算方法

– = + +⋯+= ( − ) + ( − ) +⋯+ ( − )= ∑ ( − )

統計量

• 統計量の計算方法

– = + +⋯+= ∑ ( )• : 観測された頻度

• : 仮説のもとで期待される頻度

• 自由度 : 分割数− 1

①適合度検定

• ある事象の理論的確率（古典的確率）を基準に、経験的確率（統計的確率）の「バラつき」を算出する。

• 算出したバラつきについて、有意な大きさかどうか（＝偶然ではないと言えるか）を検定する。

• サイコロの例：– サイコロの目が平等に出ていない、ということを検定したい場合

– 帰無仮説：すべての目が平等に出る

– 対立仮説：目が不平等に出る

– バラつきの総和（統計量）を計算し、臨界値を超えていれば、「有意なレベルで出る目が平等ではない」と言える。（＝帰無仮説を棄却）

適合度検定：サイコロの例

• 300回サイコロを投げた場合の例

統計量 = 9.52有意水準1%、自由度5の臨界値 = 15.09 < なので、は棄却できない。

→出目が不平等とは言えない。

1 2 3 4 5 6

58 43 61 38 57 43

50 50 50 50 50 50( − ) 64 49 121 144 49 49( − ) / 1.28 0.98 2.42 2.88 0.98 0.98

②独立性の検定

• 別々の要素が互いに影響を及ぼしているかどうかを調べる。• 理論的な確率（同時確率）が、観測値とどれくらい離れているかを検定。

• 歴史と統計の成績の例– 帰無仮説：歴史と統計の成績は独立である（関係ない）– 対立仮説：歴史と統計の成績は独立ではない（互いの影響を受けている）

• 周辺確率– 個別の事象が発生する確率

• 例：Ｐ（歴史の成績が良）

• 同時確率– 二つ以上の事象が同時に発生する確率

• 例：Ｐ（歴史の成績が良 | 統計の成績が優）

– 周辺確率の積として求められる

独立性の検定：周辺確率の算出

• 観測値を記入する

• 周辺確率を求める（標本サイズ117を1.00とする）

歴史＼統計優良計

優 24 41 65

良 14 38 52

計 38 79 117


優 0.56

良 0.44

計 0.32 0.68 1.00

独立性の検定：理論値の算出

• 同時確率（理論値の確率）を求める

• 理論値（頻度）を求める（標本サイズ117を掛ける）


優 0.18 0.38 0.56

良 0.14 0.30 0.44

計 0.32 0.68 1.00


優 21.1 43.9 65

良 16.9 35.1 52

計 38 79 117

独立性の検定：観測値と理論値

• 観測値（頻度＝人数）

• 理論値（頻度＝人数）


優 24 41 65

良 14 38 52

計 38 79 117


優 21.1 43.9 65

良 16.9 35.1 52

計 38 79 117

独立性の検定：検定

• すべての要素を並べて、観測値と理論値との偏差を計算、総和をカイ二乗検定する

自由度 = 分割数 − 1 (分割数 − 1)統計量 = 1.33

有意水準10%、自由度1の臨界値 = 2.7 < なので、（成績は独立である）は棄却できない。

→成績が独立でない（＝関係している）とは言えない。

歴史＼統計優・優優・良良・優良・良

24 41 14 38

21.1 43.9 16.9 35.1( − ) / 0.40 0.19 0.50 0.24

その他のキーワード

• フィッシャーの直接確率検定（正確確率検定）– 2 x 2分割表（自由度1、2変数）の場合

– 標本数が小さい（分割表のセルの期待値に10未満のものがある）場合

– 表中の数値の偏りが大きい場合にはカイ二乗近似は不正確。この場合には正確確率検定

– 標本数が大きい場合や、数値の偏りが小さい場合（差がなさそうに見える場合）にはカイ二乗検定

• イェーツの連続性の補正– 同時確率と観測確率の差を小さくするように、0.5ずつ補正する

– 原則として2×2分割表ではYatesの連続補正を使う（？）

③同等性の検定

• 積極的に「同じである」ことを検定したい場合に用いる– 「違いがあるとは言えない」ではなく

• 仮説の設定– 帰無仮説：母集団Aと母集団Bは同じである

– 対立仮説：母集団Aと母集団Bは異なっている

いろいろ除外してみた

• 各年齢層を除外して同等性の検定を行う

– ：各年齢層で所得と労働時間の考え方は同一

– ：各年齢層で考え方が異なる

– ：23.21

除外対象～19歳～29歳～39歳～49歳～59歳～69歳 70歳～

統計量 19.28 25.22 24.10 23.20 25.85 21.74 24.54

臨界値 < < < < < < <を棄却 × ○ ○ × ○ × ○

年齢層で異なる異なる異なる異なる

例題：A/Bスプリットテスト

あるWebサービスのユーザ登録用のランディングページを改良し、A/Bスプリットテストを実施した。

＜問１＞• 以前のデザインのページ

– 10,450アクセス、ユーザ登録167件、コンバージョンレート1.60%• 新しいデザインのページ

– 8,445アクセス、ユーザ登録153件、コンバージョンレート1.81%コンバージョンレートを考えた時、新デザインのページに有意な改善

があったと言えるか。有意水準5%で検定せよ。

＜問２＞サンプルサイズが10倍になったらどうか。アクセス数10倍、ユーザ

登録数10倍、有意水準1%として再度検定せよ。

Documents

統計勉強会 分割表とカイ二乗検定

統計勉強会分割表とカイ二乗検定