46
サンプリング 京都大学大学院医学研究科 社会健康医学系専攻 医療統計学分野 大森

サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング京都大学大学院医学研究科

社会健康医学系専攻

医療統計学分野

大森 崇

Page 2: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 2

目標

• サンプリングの考え方と種類

• 疫学研究とサンプリング

• サンプリング法が使用されている例

Page 3: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 3

• 京都府の高校に通う高校生の

サプリメントの購入実態を把握したい

週にいくらサプリメントに使うかを調査

どのように調査する?

Q.サプリメントの購入

Page 4: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 4

• 京都府の高校の基礎データ(H.19年度)

サプリメントの購入調査

学校区分 学校数 生徒数国立 1 602公立 64 42,184私立 41 28,650計 106 71,436

Page 5: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 5

• 研究の目的としている集団

正確にこの集団からの情報を得たい

例)京都府の高校生(71,436人)

ターゲット集団(target population)

Page 6: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 6

• 全数調査の利点と欠点は? ターゲット集団について、

知りたいことを完全に把握できる

時間とコストがかかる

Q.ターゲット集団全員を調査

Page 7: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 7

• サンプリング(sampling)

明確にわかっているターゲット集団の一部を調べる

ある程度の精度で全体像を把握可能

ただし偏りを除く工夫が必要

集団の一部を調査

Page 8: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 8

• 近所の高校での調査では?

• インターネットを通じた調査では?

Q.偏りが入るおそれは

Page 9: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 9

• ランダム(randomly)にサンプリング

ターゲット集団のミニュチュアを作る

偏りを除く工夫

Page 10: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 10

• 単純なランダムサンプリング

(Simple random sampling; SRS)

わかりやすい方法

他のサンプリング法の基礎

もっとも単純なサンプリング法

Page 11: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 11

単純ランダムサンプリングのイメージ

ターゲット集団 サンプリング

Page 12: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 12

• ランダムにサンプルするために、

具体的には何が必要?

ターゲット集団のリスト

例)京都府の高校生(71,436人)の

リスト

Q.どうやって選ぶ?

Page 13: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 13

• サンプルされた集団の測定値からの

平均値

ターゲット集団の平均値(真値)の

よい推定値

推定値はばらつく

標準誤差は推定値の精度の指標

単純なランダムサンプリング

Page 14: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 14

• サンプリング数

• ターゲット集団でのばらつき

• サンプリング割合(f) sampling fraction サンプリング数 / ターゲット集団の数

推定の精度(標準誤差)の要因

Page 15: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 15

• ターゲット集団について

ある種の情報を利用可能な場合がある

例)性別、年齢、地域、なんらかの種類

• このような情報を利用することで

精度を高めることができることがある

集団に関する情報の利用

Page 16: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 16

• 層化サンプリング stratified sampling

• 調査前のターゲット集団の情報で

グループ(層)を作成

• 各層からランダムにサンプリング

層に分ける(stratification)

Page 17: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 17

層化サンプリングのイメージ

ターゲット集団 サンプリング

Page 18: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 18

• 学校区分を層とすると

サプリメントの購入調査の例

学校区分 生徒数国立 602公立 42,184私立 28,650計 71,436

それぞれの層からサンプリング

Page 19: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 19

• それぞれの層の重み weight を算出

ターゲット集団での各層の人数が必要

• 算出した重みを使った重み付平均

層化サンプリングによる推定

Page 20: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 20

• 各層で f が一定のときには

平均値の計算は非常に簡単

• (fが一定のときには)

SRSより推定値の精度は悪くならない

層化サンプリングの利点

Page 21: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 21

• ターゲット集団からの

対象者をランダムにサンプリング

しばしば現実的でない

SRSや層化サンプリングの欠点

Page 22: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 22

• クラスターサンプリング cluster sampling

• 個人ではなく、グループ(クラスター)を

ランダムにサンプリング

• クラスターの中の全員を調査

クラスター cluster を使う

Page 23: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 23

クラスターサンプリングのイメージ

ターゲット集団 サンプリング

Page 24: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 24

• 学校をクラスターとすると

サプリメントの購入調査の例

• 学校(クラスター)をランダムサンプリング• 選ばれた学校の全員を調査

京都府には106の高校がある

・・・

Page 25: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 25

• サンプルリングの対象はクラスター

サンプルとなったクラスターが

全クラスターの代表

ばらつく要因は個人ではなくクラスター

クラスターサンプリングでの推定

Page 26: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 26

層化とクラスターの違い

層化サンプリング クラスターサンプリング

Page 27: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 27

• グループの役割は異なる

• 層化サンプリング

推定値の精度が上がる

• クラスターサンプリング

(通常)推定値の精度は下がる

層化とクラスター

Page 28: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 28

• クラスターの中にクラスターがある

例) 病院‐診療科

学校-学級-生徒

• これもクラスターサンプリングと

呼ばれることもある

多段階サンプリングmultistage sampling

Page 29: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 29

2段階サンプリングのイメージ

ターゲット集団 サンプリング

Page 30: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 30

サプリメントの購入調査の例

• 学校(クラスター)をランダムサンプリング• 選ばれた学校の生徒をサンプリング

106の高校

・・・

1,024人の生徒

808人の生徒

Page 31: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 31

一次サンプリングユニットprimary sampling unit (psu)

• ターゲット集団から直接サンプルされる

グループ

サンプリング

psu

…secondary sampling unit

ssu

Page 32: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 32

• 重みを算出

ターゲット集団のクラスターの数と

選択されたクラスター内の人数が

わかっている必要あり

• 重み付平均を計算

多段階サンプリングでの推定

Page 33: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 33

推定値の精度

• 推定値の精度は psu と ssu に依存

えらく複雑

• psuのみで計算可能な近似がある

pusが何かを把握することが重要

Page 34: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 34

Q.アイデアを募集

• 層化サンプリング

推定値の精度が上がる

• クラスター、多段階サンプリング

実現可能性が高い

• なにかいいアイデアは?

Page 35: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 35

• 現実的な多段階サンプリング

• 精度をよくする層化サンプリング

層化多段階サンプリングstratified multistage sampling

Page 36: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 36

層化2段階サンプリングのイメージ

ターゲット集団 サンプリング

Page 37: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 37

Q.層化2段階サンプリング

• 層化2段階サンプリングで、

平均値と標準誤差を計算するために

必要な情報(データ)は?

どの層にいくつのクラスターがあるか

各クラスターの対象者の数

Page 38: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 38

• 京都府の例

Q.サプリメントの購入調査

学校区分 学校数国立 1公立 64私立 41計 106

各学校の生徒数

学校区分が層で、学校がクラスターの場合

Page 39: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 39

• 層とクラスターに関する重みを算出

各層のクラスターの数と

各クラスターの人数から

• 重み付平均を計算

層化多段階サンプリングでの推定

Page 40: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 40

• サンプリングにより得られた調査の回答

• サンプリング法に基づく重みがいくらか

一人が何人分を代表しているか

• psuが何か

平均値と標準誤差を推定するために

Page 41: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 41

• 疫学の授業で習った研究デザインの

サンプリングは?

Q.疫学研究とサンプリング

Page 42: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 42

• 今まで習った疫学研究のデザイン

2つのグループを偏りなく比較

• 今日のサンプリングの話

ターゲット集団の特徴を偏りなく推定

ターゲット集団が有限

疫学研究とサンプリング

Page 43: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 43

まとめ

• サンプリングによって、

ある精度で集団の特徴を知ることができる

• サンプリングの種類

シンプルランダムサンプリング

層化サンプリング

クラスター、多段階サンプリング

Page 44: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 44

まとめ

• 調査回答の平均値と標準誤差は、

回答と重みとpsuから

Page 45: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 45

補足 重み付平均

層 h=1, 2, … , Hクラスター i=1, 2, … , nh

個人 j=1, 2, … , mh・i

第h層、第iクラスター、第m番目の人の

重み:

回答:

hijwhijy

Page 46: サンプリング - Kyoto U...サンプリング(2008) 12 • ランダムにサンプルするために、 具体的には何が必要? ターゲット集団のリスト 例)京都府の高校生(71,436人)の

サンプリング(2008) 46

補足 重み付平均

重み付平均

å ååå åå

h i j hij

h i j hijhij

w

yw