37
1 デデデデデデデ 2. デデデデデデデデ keyword デデデデデデ デデデデデ デデデデデデ デデデデデデデデデデデデデ デデ デデデデ デデデ ,, デデデデデデデデデデデデデ デデ デデデデ

データ解析基礎 2. 度数分布と特性値

Embed Size (px)

DESCRIPTION

データ解析基礎 2. 度数分布と特性値. keyword データの要約 度数分布表,ヒストグラム 分布の中心を表す基本統計量 平均,最頻値,中央値 分布のばらつきを表す統計量 分散,標準偏差. 統計データの構造 -1. データ解析の目的・・・ 具体的な対象(母集団)についての調査結果(標本をどう加工・処理し,有益な情報を引き出すかである. 加工・処理するための調査結果として, データ(観測データ) というものがある. 母集団から無作為抽出された個体のことを 標本 といい,その個数を 標本の大きさ または 標本サイズ と呼ぶ. - PowerPoint PPT Presentation

Citation preview

Page 1: データ解析基礎 2.  度数分布と特性値

1

データ解析基礎2. 度数分布と特性値

keywordデータの要約

度数分布表,ヒストグラム分布の中心を表す基本統計量

平均,最頻値,中央値分布のばらつきを表す統計量

分散,標準偏差

Page 2: データ解析基礎 2.  度数分布と特性値

2

統計データの構造 -1 データ解析の目的・・・

具体的な対象(母集団)についての調査結果(標本をどう加工・処理し,有益な情報を引き出すかである.

加工・処理するための調査結果として,データ(観測データ)というものがある.

母集団から無作為抽出された個体のことを標本といい,その個数を標本の大きさまたは標本サイズと呼ぶ.

“ 標本=観測データ”と読み替えても良い

Page 3: データ解析基礎 2.  度数分布と特性値

3

統計データの構造 -2

データ解析では調査項目のことを変量と呼ぶ. 質的変量

名義尺度:名前,性別 順序尺度:好きなもの順位など

量的変量(連続的変量) 間隔尺度:温度,成績など 比例尺度:距離,重量,金額など

Page 4: データ解析基礎 2.  度数分布と特性値

4

統計データの構造 -3 :名義尺度 対象者特性を便宜的に数字で表現

性別:男性 =1 ,女性 =2 好きな動物:犬 =1 ,猫 =2 ,ウサギ =3

統計的処理 度数のカウント

例)男性 100 人,女性 85 人名義尺度の数字は,加減乗除算ができない

Page 5: データ解析基礎 2.  度数分布と特性値

5

統計データの構造 -4 :順位尺度 順位やベスト 3 ,ワースト 3 などで表現

行きたい国から順に 3 つ書いてください. 次のタレントを好きな順に 3 名書いてください.

統計的処理 例)順位別の度数

1 位 ドイツ 20 名2 位 中国 10 名3 位 オランダ 8 名

Page 6: データ解析基礎 2.  度数分布と特性値

6

評価などの質問(等間隔の順序尺度)で使われる 満足度の調査

統計的処理 度数のカウント 得点化し,換算 平均などの統計量を計算

統計データの構造 -5 :間隔尺度

非常に満足 やや満足 どちらでもない やや不満 非常に不満

Page 7: データ解析基礎 2.  度数分布と特性値

7

統計データの構造 -6 :比例尺度 数や量などを質問

年収,年齢 年間売上高,来場者数

統計的処理 カテゴリー化して度数を計算 平均などの統計量の計算

Page 8: データ解析基礎 2.  度数分布と特性値

8

度数分布表 1 :質的データ例

ID 頭部損傷 ヘルメット着用1 有り 着用2 無し 着用3 無し 非着用4 有り 着用5 無し 着用6 有り 非着用7 有り 非着用8 無し 着用・・・ ・・・ ・・・・793 有り 非着用

応答パターン頭部損傷:(有り,無し)ヘルメット着用:    (着用,非着用)

Page 9: データ解析基礎 2.  度数分布と特性値

9

度数分布表 1 :質的な観測データの要約

データで各々の値の個数(度数)を求める. 度数を表形式にしたものが度数分布表である

着用 非着用 計有 17 218 235無 130 428 558計 147 646 793

頭部損傷 ヘルッメ着用の有無

Page 10: データ解析基礎 2.  度数分布と特性値

10

度数分布表 2 :量的な観測データの要約

ID AGE SAL1 53 1452 43 6213 33 2624 45 2085 46 362・・・ ・・・ ・・・56 48 38857 52 25058 62 39659 48 572

データ集計 ⇔ 度数分布表の作成

度数分布表(区間数 10 )

区間(以上-未満) 頻度 - 100 2

100 - 200 5200 - 300 18300 - 400 13400 - 500 4500 - 600 6600 - 700 3700 - 800 4800 - 900 3900 - 1

Page 11: データ解析基礎 2.  度数分布と特性値

11

度数分布表 3 :度数分布表の作成 度数分布表作成手順1. データ項目を適当な階級に分ける2. 各階級に入る度数を数える更に必要ならば,3. 相対度数,累積度数,累積相対度数を計算

相対度数は,データの大きさが異なる複数のデータの分布の比較に有効

Page 12: データ解析基礎 2.  度数分布と特性値

12

度数分布表 4 :用語の復習 階級:

標本値が取り得る値を適当な区間に分けたもの 階級値:

階級を代表する値.通常階級の上限と下限の中間値 度数:

階級に入る標本値の個数 相対度数:

度数を全標本値の個数で割って,比率にしたもの 累積度数,累積相対度数:

度数,相対度数を下の階級から順に足したもの

Page 13: データ解析基礎 2.  度数分布と特性値

13

度数分布表 5 :ヒストグラムの作成 ヒストグラム:

グラフの分布の形を見るために,度数分布表をグラフにしたもの

度数分布表を作成して,ヒストグラムを描くことによってデータの分布を知ることが出来る .

↓ データ解析のはじめの一歩!!

Page 14: データ解析基礎 2.  度数分布と特性値

14

区間(以上-未満) 度数 相対度数 累積度数 累積相対度数 - 100 2 0.03 2 0.03

100 - 200 5 0.08 7 0.12200 - 300 18 0.31 25 0.42300 - 400 13 0.22 38 0.64400 - 500 4 0.07 42 0.71500 - 600 6 0.10 48 0.81600 - 700 3 0.05 51 0.86700 - 800 4 0.07 55 0.93800 - 900 3 0.05 58 0.98900 - 1 0.02 59 1.00

度数分布表 6 :度数分布表の読み方データ区間:   300以上 400未満階級値:   350 =( 300+400 ) /2度数:  データ区間に 13 人相対度数:   9 人は全体の 22%累積度数:  最初から数えてこの  データ区間までに 38 人累積相対度数:  最初から数えてこの  データ区間までの人数は  全体の 64%

Page 15: データ解析基礎 2.  度数分布と特性値

15

度数分布表 7 :ヒストグラムの作成

区間(以上-未満) 頻度 - 100 2

100 - 200 5200 - 300 18300 - 400 13400 - 500 4500 - 600 6600 - 700 3700 - 800 4800 - 900 3900 - 1

度数分布表

02468

101214161820

-100

100 -200

200 -300

300 -400

400 -500

500 -600

600 -700

700 -800

800 -900

900 -

ヒストグラム

Page 16: データ解析基礎 2.  度数分布と特性値

16

例題:得点データ学籍番号 得点 性別I05V001 67 女子I05V002 56 男子I05V003 44 男子I05V004 51 男子I05V005 42 男子I05V006 41 男子I05V007 62 女子I05V008 48 女子I05V009 50 男子I05V010 40 女子I05V011 49 女子I05V012 61 男子I05V013 79 女子I05V014 60 女子I05V015 46 男子I05V016 66 女子I05V017 68 女子I05V018 68 女子I05V019 72 女子I05V020 48 女子I05V021 62 女子I05V022 48 男子I05V023 57 男子I05V024 42 男子I05V025 40 男子

学籍番号 得点 性別I05V026 64 女子I05V027 49 男子I05V028 56 男子I05V029 77 男子I05V030 61 女子I05V031 54 男子I05V032 57 男子I05V033 62 女子I05V034 65 女子I05V035 55 男子I05V036 55 男子I05V037 42 女子I05V038 51 男子I05V039 47 男子I05V040 48 男子I05V041 52 女子I05V042 60 男子I05V043 64 男子I05V044 45 男子I05V045 40 男子I05V046 60 女子I05V047 62 女子I05V048 36 男子I05V049 60 女子I05V050 39 男子

学籍番号 得点 性別I05V061 54 女子I05V062 31 男子I05V063 51 女子I05V064 59 女子I05V065 58 女子I05V066 57 男子I05V067 51 女子I05V068 71 女子I05V069 60 男子I05V070 62 女子I05V071 58 男子I05V072 42 男子I05V073 58 女子I05V074 52 男子

Page 17: データ解析基礎 2.  度数分布と特性値

17

例題:度数分布表

区間 度数 相対頻度31~40 6 0.0841~50 23 0.3151~60 26 0.3561~70 15 0.2071~80 4 0.05

度数分布表(全体)

区間 度数 相対頻度31~40 5 0.1241~50 17 0.4151~60 15 0.3761~70 3 0.0771~80 1 0.02

度数分布表(男子)

区間 度数 相対頻度31~40 1 0.0341~50 6 0.1851~60 11 0.3361~70 12 0.3671~80 3 0.09

度数分布表(女子)

Page 18: データ解析基礎 2.  度数分布と特性値

18

例題:ヒストグラム

ヒストグラム:全体

0

5

10

15

20

25

30

31~40 41~50 51~60 61~70 71~80

ヒストグラム:男子

0

2

4

6

8

10

12

14

16

18

31~40 41~50 51~60 61~70 71~80

ヒストグラム:女子

0

2

4

6

8

10

12

14

31~40 41~50 51~60 61~70 71~80

データのまとめ方によって,異なる解釈ができる場合がある.

Page 19: データ解析基礎 2.  度数分布と特性値

19

分布の特性値 度数分布やヒストグラムを見ることで分布の

形状を知るができる. 数値で分布の概要を把握するための指標とし

て, 代表値:データの中心の位置 散布度:データの散らばり具合がある.

2 つの指標を総称して「分布の特性値」という.

Page 20: データ解析基礎 2.  度数分布と特性値

20

分布の特性値:代表値 データの分布がどのような値を中心に散らば

っているか明らかにする. 平均:

データのすべての値を足し合わせて,データ数で割ったもの

最頻値: 分布の最も高い場所

中央値(メジアン): データの中央にくる値のこと

Page 21: データ解析基礎 2.  度数分布と特性値

21

分布の特性値:代表値

最頻値 最頻値平均値x

density

0.0 0.2 0.4 0.6 0.8 1.0

01

23

中央値

Page 22: データ解析基礎 2.  度数分布と特性値

22

日本全国の平均世帯収入は?渡辺久哲「調査データにだまされない法」創元社より

総務庁の統計局の家計調査によると,平成 8 年度の全国平均の世帯年収は 743万円であった. 全国の一般世帯およそ 8000 標本について収入と支出についての調査

この 743万円という世帯年収を聞いての感想は,「ふつうの家はそんなに稼いでいるのか!!」

例えば,ボーナスを年間 3ヶ月分支給すると仮定それば, 1ヶ月の収入は約 50万円となる.

Page 23: データ解析基礎 2.  度数分布と特性値

23

日本全国の平均世帯収入は?

単位:万円

0

10

20

30

40

50

60

70

80

90

- 200 200 -300

300 -400

400 -500

500 -600

600 -700

700 -800

800 -900

900 -1000

1000 -

平均年収が 743万円となった理由1000万円以上稼ぐ高所得者が

その平均を引き上げていたため

Page 24: データ解析基礎 2.  度数分布と特性値

24

分布の特性値:散布度散布度:分散(標準偏差)

次の 2 つのデータの平均を考える. 平均値は同じである データのもつ意味が全く違う データを要約する値としては不十分 ?

データの散らばりを表す量も表示する

Page 25: データ解析基礎 2.  度数分布と特性値

25

分布の特性値:散布度例)散布度:分散(標準偏差) 3クラスで,統計学の試験をし,各クラスで 30 人ずつ選び平均点を計算すると 50 点であった.このデータから,ヒストグラムを作成したところ以下のような結果であった.この平均点だけで,データを解釈しても良いか.

クラスAのヒストグラム

0

1

2

3

4

5

6

7

8

11 ‐20

21 ‐30

31 ‐40

41 ‐50

51 ‐60

61 ‐70

71 ‐80

81 ‐90

Bクラス のヒストグラム

0

1

2

3

4

5

6

7

8

11 ‐20

21 ‐30

31 ‐40

41 ‐50

51 ‐60

61 ‐70

71 ‐80

81 ‐90

Cクラス のヒストグラム

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

11 ‐20

21 ‐30

31 ‐40

41 ‐50

51 ‐60

61 ‐70

71 ‐80

81 ‐90

Page 26: データ解析基礎 2.  度数分布と特性値

26

データの散らばりを表す量散布度:分散(標準偏差) 分散:

データの散らばりを表現する量 データの散らばり具合が大きいほど,分散

の値は大きくなる. 3 つのクラスの分散の大きさは,

クラス A<クラス B<クラス C 標準偏差:分散を平方根したもの

Page 27: データ解析基礎 2.  度数分布と特性値

27

データの散らばりを表す量散布度:分散(標準偏差)

x

density

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

分布 1

分布 2

分布 1 の平均 = 分布 2 の平均分布 1 の分散 < 分布 2 の分散

Page 28: データ解析基礎 2.  度数分布と特性値

28

平均,分散の計算式

1 2

1

2 2 2 2

1 1

( , ,..., )

1

1 1( )

n

n

ii

n n

i ii i

n x x x x

x xn

s x x x xn n

個の観測データ が得られたする.

このとき,この観測データから標本平均と標本分散は以下の式で計算される.

標本平均

標本分散

Page 29: データ解析基礎 2.  度数分布と特性値

29

平均値の意味 1

番号 得点1 802 603 204 505 1006 407 708 309 75

10 600

10

20

30

40

50

60

70

80

90

100

0 1 2 3 4 5 6 7 8 9 10

番号

点数

平均点

0

10

20

30

40

50

60

70

80

90

100

0 1 2 3 4 5 6 7 8 9 10

番号

点数

平均点

0

10

20

30

40

50

60

70

80

90

100

0 1 2 3 4 5 6 7 8 9 10

番号

点数

平均点

以下の 10 人の学生の得点を表した図

得点と平均点との距離

Page 30: データ解析基礎 2.  度数分布と特性値

30

平均値の意味 2

1 10

2

2 210 10 10 10 102 2

1 1 1 1 1

10

1

10 ( ,..., )

( ) ( 1,...,10)

1 1 1( ) 10 10

10 10 10

1

10

i i

i i i i ii i i i i

ii

x x x

d x i

y

y d x x x x

y

x x

人の得点を と書く.このとき,ある値 と得点の距離を

で定義すると,その距離の総和 は

このとき,の最小値は,

であるので,平均値は観測値との距離を最小にする値となる.

この項が 0 のとき,y は最小になる

x の標本分散

Page 31: データ解析基礎 2.  度数分布と特性値

31

例題 1 :平均値の意味 次の度数分布表とヒストグラムはあるテスト結果をま

とめたものである.わかることを述べなさい.

区間 度数0 - 10 111 - 20 1221 - 30 2831 - 40 2641 - 50 1451 - 60 561 - 70 2171 - 80 4281 - 90 24

91 - 100 7

度数分布表

0

5

10

15

20

25

30

35

40

45

0 -10

11 -20

21 -30

31 -40

41 -50

51 -60

61 -70

71 -80

81 -90

91 -100

ヒストグラム

Page 32: データ解析基礎 2.  度数分布と特性値

32

例題 2 :基本統計量 以下のデータは, 10日間にわたる 2 つのストア

の 1日の売り上げ高(単位:万円)である.どちらのお店がより安定しているか答えなさい.

日 1 2 3 4 5 6 7 8 9 10平野ストア 50 55 60 65 70 55 60 60 60 60松原マート 30 90 50 70 35 85 30 60 80 75

Page 33: データ解析基礎 2.  度数分布と特性値

33

例題 2 :折れ線グラフ

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10

平野ストア

松原マート

(日)

平均 分散 標準偏差平野ストア 59.5 30.28 5.50松原マート 60.5 530.28 23.03

Page 34: データ解析基礎 2.  度数分布と特性値

34

例題 3 :基本統計量 以下のデータは,同じ科目を講義中心と演習中心

という 2 つの異なる講義方法でおこない,クラスA (講義中心)とクラス B (実習中心)からそれぞれ 20 名を選び,試験をおこなった結果である.2 つのクラスを比較しなさい.

No 1 2 3 4 5 6 7 8 9 10講義中心A 66 55 48 30 52 61 56 75 50 35実習中心B 40 23 72 55 33 77 32 15 51 29No 11 12 13 14 15 16 17 18 19 20講義中心A 50 52 50 47 57 47 56 51 40 30実習中心B 39 50 38 42 85 68 45 98 64 36

Page 35: データ解析基礎 2.  度数分布と特性値

35

例題 3 :基本統計量

平均 分散 標準偏差講義中心A 50.4 121.09 11.0実習中心B 49.6 470.67 21.7

基本統計量

区間 A B0 - 20 0 121 - 30 2 231 - 40 2 641 - 50 6 351 - 60 7 261 - 70 2 271 - 80 1 281 - 90 0 1

91 - 100 0 1

度数分布表

Page 36: データ解析基礎 2.  度数分布と特性値

36

例題 3 :基本統計量

0

1

2

3

4

5

6

7

8

0 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100

A

B

Page 37: データ解析基礎 2.  度数分布と特性値

37

まとめデータからの情報抽出: データの要約

度数分布表,ヒストグラム 分布の中心を表す特性値

代表値:平均,最頻値,中央値 分布のばらつきを表す特性値

散布度:分散,標準偏差