48
[入門セッション] Rによるやさしい統計学 2,3doradora09

Tokyor24 doradora09

Embed Size (px)

Citation preview

Page 1: Tokyor24 doradora09

[入門セッション]Rによるやさしい統計学

第2,3章

doradora09

Page 2: Tokyor24 doradora09

● セキココ– http://sekico.co/zaseki/35

Page 3: Tokyor24 doradora09

Outline

● 自己紹介● お知らせ + ご提案● テキスト紹介と振り返り● 第2章 – 1つの変数の記述統計 −● 第3章 − 2つの変数の記述統計 −

Page 4: Tokyor24 doradora09

自己紹介

● 大城信晃 (Twitter:doradora09)● DB寄りWebエンジニア

– Rは業務では触っていませんが– いつかレコメンドをやってみたい

● 趣味:お酒、ホルン● マイブーム

– ネイバーまとめ

Page 5: Tokyor24 doradora09

Outline

● 自己紹介● お知らせ + ご提案● テキスト紹介 + 前回振り返り● 第2章 – 1つの変数の記述統計 −● 第3章 − 2つの変数の記述統計 −

Page 6: Tokyor24 doradora09

お知らせ(1/3) セキココ● セキココという勉強会の座席共有サービスがあるので、もしよ

ければ使ってみてください● 席に座っている人のTwitterアカウントが分かるので便利です● http://sekico.co/

Page 7: Tokyor24 doradora09

お知らせ(2/3) 懇親会● TokyoRではセッション終了後に懇親会を実施して

います● 発表後の参加も可能ですので、プレゼンを聞いて興

味を持たれた方は是非ご参加下さい● 一般1500円、学生は無料です!

※画面はイメージです

Page 8: Tokyor24 doradora09

お知らせ(3/3) 本日のウィスキー● 出張BAR企画

– 今日はシーバスリーガル18年を持ってきました– リクエストも募集中!(おひねりも大歓迎)

Page 9: Tokyor24 doradora09

ご提案● 入門セッションの後に再度入場の時間を作っては

どうでしょうか?

● 現在– 14:30 入場– 15:00 開始

● 入門セッション● 本編● LT

– 19:00 懇親会– 21:00 解散

● 提案の流れ– 14:30 入場1回目– 15:00 開始

● 入門セッション– 16:00 入場2回目+休憩– 16:30 再開

● 本編● LT

– 19:00 懇親会– 21:00 解散

Page 10: Tokyor24 doradora09

そろそろ本題へ

Page 11: Tokyor24 doradora09

テキスト紹介● Rによるやさしい統計学● オーム社 (2008/1/25)

– 第2章:1つの変数の記述統計

– 第3章:2つの変数の記述統計

http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/

Page 12: Tokyor24 doradora09

前回振り返り:Rの導入● Windows, Mac, Linux版がある● いずれも無料

– Windows● http://cran.md.tsukuba.ac.jp/bin/windows/base/

– Mac, Linux● http://cran.md.tsukuba.ac.jp/

● 又は「rjpwiki」で検索● まだ導入していない方はこの機会にどうぞ

Page 13: Tokyor24 doradora09

紹介:各Rコミュニティの過去発表資料一覧

● ATNDの下のリンクからどうぞhttp://atnd.org/events/29541

● 「勉強会発表内容一覧 – Japan.R WIki」

Page 14: Tokyor24 doradora09

第2章 - 1つの変数の記述統計 -

Page 15: Tokyor24 doradora09

1つの変数の要約● 数値要約

– データの持つ特徴を1つの数値にまとめること– 平均、中央値、最頻値など

● 数値要約をすることで、例えば1クラス20人のテストの平均が何点である、というようにクラスの特徴を一言で表すことができる

● ここでは10人のクラスで心理学と統計のテストを受けたデータをサンプルとして数値要約を進めていきます

Page 16: Tokyor24 doradora09

サンプルデータ> data <- read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv');> #またはこちらで># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv');> data ID 名前 性別 数学 統計 心理学テスト 統計テスト1 統計テスト2 指導法1 1 大木 男 嫌い 好き 13 6 10 C2 2 本多 男 嫌い 好き 14 10 13 B3 3 川崎 男 好き 好き 7 6 8 B4 4 多村 男 好き 好き 12 10 15 A5 5 松中 男 嫌い 嫌い 10 5 8 B6 6 小久保 男 嫌い 嫌い 6 3 6 C7 7 柴原 男 嫌い 嫌い 8 5 9 A8 8 井手 男 嫌い 嫌い 15 9 10 D9 9 田上 男 嫌い 嫌い 4 3 7 D10 10 松田 男 嫌い 嫌い 14 3 3 D

> attach(data) #データフレームを変数に展開してくれる

Page 17: Tokyor24 doradora09

変数の種類● 量的変数

– 大小に関する変数– 心理学テストの点数など数値化できるもの

● 質的変数– 構成する要素を分類するもの– 数学が好きか、嫌いかなど

● 変数の種類によって適用できる統計解析が変わるため、区別が重要

Page 18: Tokyor24 doradora09

データの視覚的表現> data['指導法'] #指導法のデータだけ取り出す> 指導法 [1] C B B A B C A D D DLevels: A B C D

> table(指導法)指導法A B C D 2 3 2 3

● データをカテゴリ別に分類– 度数

● 同じカテゴリに含まれるデータの個数

● ここでは指導法の値、例えばAの指導法の度数は2

Page 19: Tokyor24 doradora09

ヒストグラム (度数の図示)> data[,'心理学テスト']

[1] 13 14 7 12 10 6 8 15 4 14

> hist(data[,'心理学テスト'])

Page 20: Tokyor24 doradora09

代表値● 代表値

– 分布の中心部の位置を示す、そのデータを代表する値– 平均値:よく利用される代表値

● 平均 =

(1番目のデータ + 2番目のデータ + ... + n番目のデータ) / n

> mean(data['心理学テスト']) #平均値心理学テスト 10.3

Page 21: Tokyor24 doradora09

平均以外の代表値● 中央値

– データの大きさの順に並べた際にちょうど真ん中に来る値

● 10個のデータの場合は真ん中の2つの値の平均値– 以下の例だと(10+12)/2 = 11

● データにはずれ値がある場合に用いられることがある

> sort(data[,'心理学テスト']) #小さい順に並べる [1] 4 6 7 8 10 12 13 14 14 15

> median(data[,'心理学テスト']) #中央値(10と12の平均)[1] 11

Page 22: Tokyor24 doradora09

平均以外の代表値● 最頻値

– 最も頻繁に観測される値– 主に質的変数の代表値として用いられる

● 最頻値が2つあるような分布の場合はあまり用いない方が良い(数値要約になってない)

> table(data[,'心理学テスト']) #最頻値(ここでは14)

4 6 7 8 10 12 13 14 15 1 1 1 1 1 1 1 2 1

Page 23: Tokyor24 doradora09

散布度

● 散布度– ここまではデータの中心に関する話(代表値)– 今度はデータがどれくらいの散らばりがあるかを見る(散布度)

● 偏差、分散、標準偏差、平均偏差、レンジ

Page 24: Tokyor24 doradora09

(平均からの)偏差● 偏差

– 平均と変数の差> 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3> mean(統計テスト2)[1] 8.9> 統計テスト2 - mean(統計テスト2) [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9

Page 25: Tokyor24 doradora09

分散、標準偏差

● 分散、標準偏差の値が大きいほどデータの散らばりが大きいことを意味する

(標本)分散=

(data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)

標準偏差 = √分散

Page 26: Tokyor24 doradora09

分散、標準偏差

> テストa <- 統計テスト2> テストa [1] 10 13 8 15 8 6 9 10 7 3

> var(テストa) #(標本)分散を求める[1] 11.65556

> sd(テストa) #標準偏差を求める[1] 3.414023

Page 27: Tokyor24 doradora09

補足:不偏分散と標本分散● 標本分散

– 今回扱う分散– 手元にすべてのデータがあり、そのデータ自体が

どの程度散らばっているのかを記述する際に用いる

● 不偏分散– 手元データが母集団の一部である場合に用いる– n-1で割る

不偏分散= (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)

Page 28: Tokyor24 doradora09

分散、標準偏差以外の散布度平均偏差

= (平均からの)偏差の絶対値の平均

> 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3

> mean(統計テスト2)[1] 8.9> 統計テスト2 – mean(統計テスト2) #偏差をもとめる [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9

> abs(統計テスト2 – mean(統計テスト2)) #絶対値をもとめる [1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9

> mean(abs(統計テスト2 – mean(統計テスト2))) #平均偏差[1] 2.5

Page 29: Tokyor24 doradora09

分散、標準偏差以外の散布度

#レンジを求める> max(統計テスト2)[1] 15> min(統計テスト2)[1] 3 > max(統計テスト2) - min(統計テスト2)[1] 12

範囲(レンジ)

= 最大値 - 最小値

Page 30: Tokyor24 doradora09

標準化● 標準化

– 平均と標準偏差がある特定の値になるように、すべてのデータの値を同じ式を使って変換すること

● 標準得点– 変換された得点のこと

● z得点– 平均0, 標準偏差(SD)1の標準得点– (変数 – 平均値) / 標準偏差 で求める

Page 31: Tokyor24 doradora09

z得点を求める> 心理学テスト [1] 13 14 7 12 10 6 8 15 4 14

> 心理学平均 <- mean(data['心理学テスト'])

> 心理学平均心理学テスト 10.3 > > 心理学標準偏差 <- sqrt(mean((data['心理学テスト'] - 心理学平均)^2))

> 心理学標準偏差 [1] 3.661967

> 心理学z得点 <- (data['心理学テスト']-心理学平均)/心理学標準偏差

> 心理学z得点 心理学テスト1 0.737308732 1.010386043 -0.901155114 0.464231425 -0.081923196 -1.174232427 -0.628077818 1.283463349 -1.7203870310 1.01038604

Page 32: Tokyor24 doradora09

z得点の検算> 心理学z得点平均 <- mean(心理学z得点)> 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0心理学テスト -1.94289e-16 > 心理学z得点標準偏差 <- sqrt(mean((心理学z得点-心理学z得点平均)^2))

> 心理学z得点標準偏差 #1になっている[1] 1

– 平均0, 標準偏差(SD)1になっている

Page 33: Tokyor24 doradora09

偏差値● 偏差値

– 平均50,標準偏差10になるように標準かした標準得点

– 偏差値 = z得点 × 10 + 50● 偏差値の利用価値が高いのは、母集団の数値の分布が正規分布に近い状態の時

– 偏差値60以上(あるいは40以下)は、全体の15.866%。– 偏差値70以上(あるいは30以下)は、全体の2.275%。– 偏差値80以上(あるいは20以下)は、全体の0.13499%。– 偏差値90以上(あるいは10以下)は、全体の0.00315%。– 偏差値100以上(あるいは0以下)は、全体の0.00002%

Page 34: Tokyor24 doradora09

偏差値と検算> 心理学偏差値 <- 10*心理学z得点 + 50

> 心理学偏差値 心理学テスト1 57.373092 60.103863 40.988454 54.642315 49.180776 38.257687 43.719228 62.834639 32.7961310 60.10386

> 心理学偏差値平均 <- mean(心理学偏差値)

> 心理学偏差値平均心理学テスト 50 > > 心理学偏差値標準偏差 <- sqrt(mean((心理学偏差値 - 心理学偏差値平均)^2))

> 心理学偏差値標準偏差[1] 10

Page 35: Tokyor24 doradora09

参考:正規分布の場合の対応表

Page 36: Tokyor24 doradora09

第2章まとめ 1つの変数の記述統計– 変数の種類

● 量的変数、質的変数– 代表値

● 平均、中央値、最頻値– 散布度

● 偏差、分散、標準偏差– 標準化

● z得点、偏差値

Page 37: Tokyor24 doradora09

第3章 - 2つの変数の記述統計 -

(スライド10枚)

Page 38: Tokyor24 doradora09

2つの変数の関係 - 相関と連関 -

● 相関– 量的変数どうしの関係

● 「国語の得点が高い人ほど英語の得点が高い」など● 連関

– 質的変数どうしの関係● 洋食派か和食派か尋ね、洋食派には甘党が多く、和食派には辛党が多かった場合、など

Page 39: Tokyor24 doradora09

散布図> t_test1 <- data[,'統計テスト1']> t_test2 <- data[,'統計テスト2']> plot(t_test1, t_test2)

● X軸, Y軸のデータが– 右上がりの傾向(正の相関)

– 右下がりの傾向(負の相関)

– バラバラ(無相関)● 統計テスト1と統計テスト2

には正の相関がありそう

Page 40: Tokyor24 doradora09

共分散● 共分散

– 相関の強さを数値で表す際に用いる– 分散は1変数で自乗していたが、共分散はx, y 2変数の偏差をそれぞれを掛け合わせる

Sxy: 共分散 xの平均 yの平均

Page 41: Tokyor24 doradora09

共分散> cov(data['統計テスト1'],data['統計テスト2']) #不偏共分散

統計テスト2統計テスト1 8.555556

Page 42: Tokyor24 doradora09

共分散と単位の影響● 共分散は単位により値が変動してしまう

– 例えば身長だとmで計算するか、cmで計算するかで値が100倍変わるため

● 相関係数を用いることで単位の影響を受けなくすることが可能

Page 43: Tokyor24 doradora09

相関係数● 相関係数は単位に左右されない

> cor(data['統計テスト1'], data['統計テスト2']) 統計テスト2統計テスト1 0.8985742

rxy:相関係数, Sxy:共分散Sx: xの標準偏差, Sy: yの標準偏差

Page 44: Tokyor24 doradora09

相関係数の大きさの評価● 相関係数

-0.2 ≦ r ≦ 0.2 : ほとんど相関無し-0.4 ≦ r < -0.2, 0.2 < r ≦ 0.4 : 弱い相関あり

-0.7 ≦ r < -0.4, 0.4 < r ≦ 0.7 : 中程度の相関あり

-1.0 ≦ r < -0.7, 0.7 < r ≦ 1.0 : 強い相関あり

統計テスト1と2 相関係数 = 0.8985742(強い相関あり)

Page 45: Tokyor24 doradora09

クロス集計表● 質的変数の関係を表す表

● 数学も統計も嫌い、という人は6人いるという読み方

> table(data[,'数学'],data[,'統計'])

嫌い 好き 嫌い 6 2 好き 0 2

数学

統計

Page 46: Tokyor24 doradora09

ファイ係数● クロス集計で利用した好き、嫌いという区別を1,0

で置き換え● 数値化して相関係数を求める

– 質的変数を量的変数と見なして計算ができる> 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0)> 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0)

> 数学イチゼロ[,1] [1] 0 0 1 1 0 0 0 0 0 0> 統計イチゼロ[,1] [1] 1 1 1 1 0 0 0 0 0 0

> cor(数学イチゼロ, 統計イチゼロ) 統計数学 0.6123724>#中程度の相関あり

Page 47: Tokyor24 doradora09

第3章まとめ2変数の関係性を調べる方法

● 散布図:plot()● 共分散:cov()● 相関係数: 単位に影響されない. cor()● クロス集計表: table()● ファイ係数 : 質的変数をifelse等で0,1化してcor()

Page 48: Tokyor24 doradora09

ご清聴ありがとうございました!