Upload
others
View
30
Download
0
Embed Size (px)
Citation preview
第1回 統計学勉強会
同志社大学 知的システムデザイン研究室
中尾 昌広
このゼミの目的と目標
平均、分散、標準偏差正規分布、符号検定
研究に役立つように、統計学の基礎をおさえる。統計学は就職した後でも使うことは多いので、知っておくと便利です。
今回のキーワード
以上のキーワードを、この勉強会終了後に説明できるようになって欲しい。
勉強会の進め方
演習をします。新しいことを勉強するときは、抽象的な事象(例えば方程式とか)だけを勉強するのでは効率が悪い。抽象的な事象と具体的な事象とを交互に学ぶのが、最良の方法(だと思う)。つまり講義を聞くだけでなく、実際にグラフを描いたり、表を書いたりして、抽象的な事象と具体的な事象との相互関係を脳に焼き付ける必要がある。そうすると応用力も鍛えられる。
統計学を学ぶ意味
実験を行うと、何かのデータを得られる。そのデータについて考察することが研究とも言える。
その考察は、他人が納得できるものでないといけない。
単純な例
Aという既存のシステムを改良してBというシステムを作成した。被験者10人を集めて、AとBの両方のシステムを触ってもらった。 2段階評価でアンケートを取った結果、下記の結果になった。
A・・・10人中 3人が良いと思った B・・・10人中 7人が良いと思った
よって、Bの方が良いシステムと言える。・・・か?
統計学の使い方
では、どれだけの被験者を集めて、どれだけの差がつけば、AとBは差があるといえるのか?
ということについて、統計学を使うと、客観的な(誰もが納得してくれる)答えを得ることができる。
他の統計学の使い方
得られたデータから、数値上の性質や規則性あるいは不規則性を見いだすことも重要な役割
簡単な方法・平均、分散、ヒストグラム
少し難しい方法
・クラスタ分析・・・似た者同士に分ける手法
・主成分分析・・・・複数の変数で表された情報を、
より少ない情報で表現する手法
もう一度、今日のキーワード
平均、分散、標準偏差正規分布、符号検定
今回のキーワード
ここで「標準偏差」が一番大切です。なぜなら「標準偏差」を理解しないと、検定で必要な正規分布が理解できないから。
まずは平均値
N個のデータが与えられているとする
このように、データとして並んでいるたくさんの数値を、何らかの基準で整理して、意味のある値を作成することが、統計学の基本といえる。その抽出した値を統計量という。
例
数学と社会のテストの結果の表
科目名 A君 B君 C君 D君 E君 平均
数学 40 50 70 90 100 70
社会 60 65 70 75 80 70
ともに平均点は70点。でも、何かが違う
分散
分散とは、データの散らばり具合を表す統計量のこと
数学 社会
データを平均で引いた後に2乗すると、その差が正の数で出る。その全データの平均値が分散である。
標準偏差
しかし、分散の値はデータの値と比べて大きい。なぜなら単位が点^2だから。そこで、分散の平方をとる。この値を標準偏差( )という。
標準偏差はよくS.D.(Standard Deviation)と略される。
演習問題
先ほどの数学と社会のテスト結果の分散、標準偏差を求めよう
ヒント:SQRT(520) = 22.8SQRT(50) = 7.07
ワークシート
1. まず平均値を求める
偏差
2. 偏差(データ - 平均点)を計算する
3. 偏差の各値を2乗して、その平均を求める
偏差の2乗
4. 3で得た値の平方を取る
平均
答え(数学の場合)
1. まず平均値を求める・・・・70(今回は既出)
数学 40 50 70 90 100 70
偏差 -30 -20 0 +20 +30
2. 偏差を計算する
3. 2乗して、その平均を求める偏差の2乗 900 400 0 400 900 520
4. 3で得た値の平方を取る・・・SQRT(520)=22.8
とりあえずのまとめ
平均値というのは、データ分布はその平均値の周りにあるということを示す値
分散・標準偏差は、データが平均値の周辺にどのくらい広がっているかを表す値
直感的な理解
数学 社会
標準偏差について
標準偏差を用いると、データの特殊性を評価することができます。
先ほどのテストでF君が数学で90点、社会で90点を取ったとします。どちらの方がすごいでしょう?
標準偏差とは「平均値からの離れ具合を平均化した値」といえる。
コーヒーブレイク
実は偏差値は、平均値が50、標準偏差が10となるようにテストの点数を規格化したものである。
つまり偏差値は高いほど(もしくは低いほど)平均点から離れていることを表す値であると言える。
詳しい計算方法は後述。
超重要な法則
統計学では、以下のおおまかな基準が了解されている
データ分布において、平均値から±1.96×標準偏差よりも外側のデータは、「特殊なデータ」と言える
この知識は検定に用いられるので、とても重要である。
なぜ、±1.96なのかは後述します。
正規分布
色々な値をとるデータの分布をデータ分布という。自然現象や社会で観測されるデータ分布は「正規分布」になることが多い。例えば、コインの表裏、身長、体重などは正規分布になる(近い)のは広く知られている。
正規分布の図
特に平均=0,分散=1の時、標準正規分布という。
緑が標準正規分布
縦軸は確率
数式は覚える必要はない。単語と性質だけを覚えよう。
縦軸は確率を表すので、下軸と囲まれた面積は1である
正規分布の重要な性質
平均±1.96×標準偏差より内側になる確率が95%。(つまり内側の面積は0.95)
標準正規分布の場合、得られたデータの絶対値が1.96以上であると特殊なデータと言える
標準正規分布の場合
コインの表裏の例
10回コインを投げました。表の出た回数の確率をグラフにすると
0
0.05
0.1
0.15
0.2
0.25
0.3
0 1 2 3 4 5 6 7 8 9 10
表の出た回数
確率
正規分布に近いことがわかると思います。
重要な補足
コインの表裏の出る確率が、それぞれ0.5である場合、その結果のデータ分布は近似的に
平均=N / 2 標準偏差= SQRT(N)/2
の正規分布となる。
標準化
普通の正規分布よりも、標準正規分布の方が色々と便利である
でも、得られたデータセットが「平均=0、分散=1」である確率は狙ってもできないのが普通
得られたデータセットを変化させて、「平均=0、分散=1」にすることを標準化という。
標準化すると、得られる値は、平均からどれだけ離れているかを表す値になる。つまり特殊性を表す値とも言えるため、議論しやすくて、結構便利。
標準化のための数学
データセットX: A,B,Cがあるとする。平均はD、標準偏差はE
データセットY:(A+F)*G, (B+F)*G, (C+F)*Gがあるとする(データセットXの各データにFを足し、さらにGを掛けた値)
データセットYの平均は(D+F)*Gである(直感的にわかると思います)
データセットYの標準偏差は? (証明は省略)E*GデータセットYの各データはかけるGだけ、平均値から離れていく訳だから、なんとか直感的にわかると思います。
標準化のための数学
平均はD、標準偏差はEのデータセットXがあるとする。
データセットXを加工して、元の意味を崩さずに平均0、分散(標準偏差)1にしたい
全データを平均Dで引いてから、標準偏差Eで割ればいい
これをZ値という。Z値とは、平均値からの距離を標準偏差の倍数で表した数値のこと。
Z ={(データ) - (平均値) } / (標準偏差)
演習問題
ある木の高さが平均120センチメートル、S.D.が10とわかっているとする。
その中で1本の木を取り出して測定してみると、150センチメートルであった。
この木は特殊であるといえるかどうかをZ値を出して求めよう
ここまでのまとめ
世の中のデータは正規分布に従うことが多い
平均=0、分散=1の正規分布を特に「標準正規分布」という
正規分布のデータは標準化を行うことで、標準正規分布のデータ(Z値)に変換することができる
ある値のZ値を出したとして、その絶対値が1.96以上の場合は特殊なデータである
偏差値について
偏差値とは、ある数値が母集団の中でどれくらいの位置にいるかを表した無次元数。平均値が50、標準偏差が10となるように標本変数を規格化したものである(wikipediaより)。
式:
符号検定
対応のある2変数の組について,母代表値に差があるか検定する(ただしこの例は小標本の場合である)。
簡単な例: Aという既存のシステムを改良してBというシステムを作成した。被験者10人を集めて、AとBの両方のシステムを触ってもらった。 2段階評価でアンケートを取った結果、下記の結果になった(Aが良い場合0、Bが良い場合1)
被験者No 1 2 3 4 5 6 7 8 9 10
結果 1 0 1 0 1 1 1 1 0 1
符号検定の考え方
比較する2群間には「差がない」と仮定する。
すると前頁の場合、確率0.5で 0か 1の数値が割り振られる
0
0.05
0.1
0.15
0.2
0.25
0.3
0 1 2 3 4 5 6 7 8 9 10
つまり0と1の出る確率はコインの表裏と同じ
符号検定
10回中7回、0か1のどちらかが多く出現する確率は約34%。2群の間には差があるとは言えない <-最初の問題の答え差があるとするためには5%未満の希有な確率でないといけない今回の場合だと、10回中9回もしくは10回とも1か0でないと有為な差があるとるは言えない(計算してみよう)
符号検定(一般)
仮にアンケートが5段階評価だとしたら?
「確実にAが良い」、「どちらかといえばA」、「どちらともいえない」、「どちらかといえばB」、「確実にBが良い」
上記のアンケートを順に「5」「4」「3」「2」「1」という値に割り当てる
符号検定(一般)
結果 符号5 +4 +2 -3 01 -4 +3 02 -4 +
Aの方が良い場合は+、Bの方が良い場合は-、どちらでもない場合は0を付ける
そして、0の場合は除外して残りの場合のみで考える
符号検定(一般)
左の表の場合、総データ数は9個
だけど、実際に用いるのは7個
7個のデータに関して、二項分布の式を用いて確率を計算し、その面積が0.025(両側の面積の和なので)以下であるかどうかで、有意に差があるかどうかを判断する
結果 符号5 +4 +2 -3 01 -4 +3 02 -4 +
符号検定(大標本の場合)標本数が25以上の場合は、正規分布に近似できる
平均=N / 2、分散= SQRT(N)/2を用いて、Z値を出して、検定を行う
rは少ない方の符号の数(前頁の例だと、-の数の3)±0.5は正規分布に近似させるための補正。r<n/2のときは+0.5を、r>n/2のときは-0.5とする
ここまでで統計の話は終わり
データの上手な取り方
一概に言えないけど、
「どんな論文を書こうとしていて、自分のシステムの優位性を示すためにはどのような項目が必要かを実験前に考える」
つまり実験前に、どんな論文を書くか、どんな発表をするかをイメージしておく。
実験のコツ自分の欲しい結果(現実的な結果)をノートに書いておく。そして、それを基にした考察も書いてしまう。
データの上手な取り方
どんなデータが取れるかを考えておくと、取らないといけない実験項目(アンケート項目)を実験前に洗い出すことができる
結果が集まって、事前に自分が予測したデータと異なる場合は、なぜ違うのかについて、新たな考察(場合によっては発見)をすることができる
その実験の意味とその結果をどのように使うかを整理することができる。例えばGAの場合は、どのような傾向があれば、自分の予測通りなのかとか
どんな検定方法を使うかを事前に考えておける
まとめ
統計学をうまく用いると、全世界の人を納得できる客観的なデータを提示することができる
標準偏差、またZ値は特殊性を表すことのできる統計量である
符号検定を使うと、対応ある2群の違いの有無を判断することができる
実験を行う前に、どんな結果が欲しいかを考えること
事前にどんな検定方法を使うかを考えておく
お勧め本
完全独習 統計学入門 ダイヤモンド社 小島寛之
D1になって、10冊以上統計学の本を読んだけど、その中で1番はこの本。統計学とは何かということを、最もわかりやすく、最も早く学ぶことができる、と思う。
第二回統計学勉強会について
未定
少ないデータ数で検定を行う方法、とか
数の違う、対応のとってないデータ分布を比較して、有意な違いがあるか、とか(GA、MOGA向け)
集合A:32, 33, 43, 12, 12, 15, 22, 16
集合B:52, 31, 23, 32, 33, 13, 42, 16, 41, 30
同等といえるか?