11
Copyright © 2014 Uhuru Corporation, All Right Reserved. 株株株株株株株 株株 株株 Data Scientist 株株 40 株株株株株株株株株株株株株株 ― 株株株株株株株株

Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Embed Size (px)

DESCRIPTION

調査をするときに、観察対象を20サンプルではなくて40サンプルにしたい理由をまとめました。1回当たり10%で起きる現象を2回以上観測する可能性を90%確保するために必要な観測数はいくらであるか、相関関係を確かめるために何例のサンプルが必要か、そのような例題を5個用意し、それぞれについて検討しました。 数式は1つもありません。数の感覚をつかむこと、必要とあらば、自分で近似式を導いて、他の状況で必要な数の算出を即座に行うために必要な例を載せようと思い作りました。これについてはしばらく検証していこうと思います。とにかく40あれば十分という説明というよりは、20の場合と40の場合の違いを明らかにし、目的に応じて数を加減できるようにさまざまな数値例を示しました。

Citation preview

Page 1: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

株式会社ウフル

下野 寿之 Data Scientist

なぜ 40 個のサンプルで調査をするのか

― 数値例からの考察

Page 2: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

はじめに

問題:何サンプルあれば全体傾向を議論できる

か?

    サンプル数は十分といえるのか?

アンケート総数  = ?

Page 3: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

サンプルサイズの算出の試み

1. 全体傾向が過半数であることを確認したい

2. 10% の確率で起きる現象を 2 回以上確認したい

3. 偏差値 65 以上のサンプルを 1 個以上見つけたい

4. 全 10 カテゴリからサンプルを各 1 個以上見つけた

5. 2 変量に相関があることを確認したい

いくつかの例題で検討してみる。

さらに、確率 90% 以上で確認可能な計画を立てたい

問題:何サンプルあれば全体傾向を議論できる

か?

Page 4: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

各人が 3:2 の確率で賛成票と反対票を投じる時に多数決で賛成が決まる可能性を 90%確保するために必要な人数は41 人。

※ 投票者全員がそれぞれ独立に、ある決まった確率で賛成票または反対票のどちらかを投票して、多数決をとる状況を考えている。 ( 賛成反対が同数の場合はさいころの目の偶奇で決めるとする。 )

1. 全体傾向が過半数であることを確認したい

全体傾向では多数派であっても、ある確率で過半数に達しない場合がある!

賛成60%反対40%

全体傾向

多数派が過半数多数派が少数派に見える

90.3%9.7%

Page 5: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

2. 10% の確率で起きる現象を 2 回以上確認した

1 回あたり 10% しか起きない現象を 90% 以上の確率で 2 回以上観察する計画を立てたい。

その他90%

発生10%

2回以上確認

90.5%9.5%

発生確率

標本発生回数

最低限必要な観察回数は 38回

Page 6: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved. 6

3. 偏差値 65 以上のサンプルを 1 個以上見つけた

い偏差値 65 以上のサンプルを 1 個でも 90% 以上の確率で見つけるには、 34 個のサンプルの探索が必要。

▶ いろんな観測値の分布は、ガウス分布で近似できることが多い。たとえば多数の人の身長や体重の分布はガウス分布で近似できる。ガウス分布の形は上図のような形になる。( このグラフの場合は、平均 μ は 0 , 標準偏差 σ は 1 になるように調整してある。 )▶ “ 偏差値” にたとえると μ + 1.5σ が 65 に相当する。それ以上の値を取る割合は 6.68% である。

偏差値 65以上

サンプル数を 34個確保すれば、この領域のサンプルが見つかる可能性が 90%に達する。

Page 7: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

均等に重複なく存在する 10カテゴリから無作為にサンプルを採集する場合に、全てのカテゴリから少なくとも 1 サンプル以上を 90% 以上の確率で採集するために必要なサンプル数は 44 サンプル。

4. 全 10 カテゴリからサンプルを各 1 個以上見つけ

たい

確率

サンプル採集数

全 10カテゴリから全てのカテゴリのサンプルを採集できる確率

Page 8: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

※ 相関係数 0.5 程度の現象は、同一年齢同性の親子の身長、プロ野球の各チームの年間総得点と総失点と年間順位の 3 変数の間などに現れる。

5. 2 変量に相関があることを確認したい

8

2 変量間の母相関係数が 0.5 の場合に、検出力 90% で有意水準5% の無相関の検定 ( 両側 ) を , 行うための必要標本サイズは 37以上。

母相関係数 0.5を持つ分布 (2次元ガウス分布 ) 青丸は 37個の標本例

ρ = 0.5

N ≧ 37

※ データと現実の変数の関係こそ重要で、相関係数を考えることは有力な手段であるが、それを測定するためには、意外と多数のサンプルの観測が必要。人はなぜ現実から関係性をうまく読み取るのかについては、さらなる深い考察が必要。

Page 9: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved. 9

1. 60% の優勢を判定 → 41 人2. 10% の未知の現象の見逃しを防ぐなら → 38 例3. 偏差値 65 以上の逸脱したケースを探すなら → 34 例4. 全 10 カテゴリを全て集めたい → 44 サンプル5. 2 変量に相関があるかどうか検定したい → 37 例

[ まとめ ] 90% 以上の確率で正しい結果を得るために必要な調査量

少なくとも 40 サンプル程度は観察が必要

Page 10: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved. 10

補足 1: 20 と 40 を比較する場合

90% の確率で実現できること

80% の確率で実現できること

→サンプルの大きさ 10 20 40 80

%何 の現象を複数回捉えられるか 33.7 %超 18.1 %超 9.4 %超 4.8 %超

過半数であることを正しく多数決で結果を出す 69.9 %超 64.2 %超 60.1 %超 57.1 %超

何色シールなら全部揃えられるか 3 色以下 5 色以下 9 色以下 16 色以下

集めたサンプルの中の平均からの最大逸脱 1.26 σ超 1.60 σ超 1.91 σ超 2.19 σ超

( ,5%)無相関検定 両側 棄却に必要な母相関係数 ρ≧ 0.83 ρ≧ 0.65 ρ≧ 0.49 ρ≧ 0.36

→サンプルの大きさ 10 20 40 80

%何 の現象を複数回捉えられるか 27.1 %超 14.2 %超 7.3 %超 3.7 %超

過半数であることを正しく多数決で結果を出す 63.4 %超 59.4 %超 56.7 %超 54.7 %超

何色シールなら全部揃えられるか 3 色以下 6 色以下 10 色以下 18 色以下

集めたサンプルの中の平均からの最大逸脱 1.44 σ超 1.77 σ超 2.06 σ超 2.33 σ超

( ,5%)無相関検定 両側 棄却に必要な母相関係数 ρ≧ 0.77 ρ≧ 0.59 ρ≧ 0.43 ρ≧ 0.31

Page 11: Why 40? なぜ40個のサンプルで調査をするのか ― 数値例からの考察

Copyright © 2014 Uhuru Corporation, All Right Reserved.

補足 2: 集めたサンプルからある 1 変量の範囲を知りたい

11

20 回の観察をしたとしても意外と結果の分布の揺らぎは大きい。値の範囲について精度良く把握するには、 40 回は必要と考えられる。

下の 4 個のグラフは、それぞれ観察回数を 10 回・ 20 回・ 40 回・ 100 回と決めた場合に、 15回ずつ値の”分布”をシュミレートしたものである。 ( 観察した分布から推測した平均と標準偏差を表す長方形を重ねてある。 )