75
資資資資資資資資 資資資資資資資資 資資資資資資資資 資資資資資資資資 資資資資資資資 資資資資資資資 資資資資資資 資資資資資資 資資資資 資資資資 資資資 . 資資資資資

資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

Embed Size (px)

DESCRIPTION

第三章.敘述統計學. 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數. 3.1 資料整理 Data Organization. 將資料表格化或繪製圖形,使資料能一目瞭然。 一個好的圖表勝過千言萬語 。 資料形態有兩種: 分立變數 (discrete variable) : 沒有度量衡儀器的測定 ( 無單位 ) , 分立變數都是 計數 的。 如家庭子女數、 性別、花的顏色等。 連續變數 (continuous variable) : - PowerPoint PPT Presentation

Citation preview

Page 1: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

資料的整理與呈現資料的整理與呈現表格化法與製圖法表格化法與製圖法中心位置測定值中心位置測定值分散度測定值分散度測定值變異係數變異係數

第三章 . 敘述統計學

Page 2: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

22

將資料表格化或繪製圖形,使資料能一目瞭然。一個好的圖表勝過千言萬語。資料形態有兩種 :分立變數 (discrete variable) :

沒有度量衡儀器的測定 ( 無單位 ) ,分立變數都是計數的。如家庭子女數、性別、花的顏色等。

連續變數 (continuous variable) : 有度量衡儀器的測定 ( 有單位,如公分、公斤等 ) ,觀測值間的變動是連續的,差異很小。如身高、體重 、溫度等。

3.1 3.1 資料整理資料整理 Data OrganizationData Organization

Page 3: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

33

將資料整理成表格的形式,並以文字或數將資料整理成表格的形式,並以文字或數字的形式表現出來,字的形式表現出來,並求各變數之並求各變數之次數次數(frequency)(frequency) 及及相對次數相對次數 (relative (relative

frequency)frequency) 或或比例比例 (ratio)(ratio) 等。等。可區分為可區分為不分組不分組及及分組分組兩類資料型式。兩類資料型式。

例例 3.13.1 :設測定:設測定 5050 粒四環素粒四環素(tetracycline)(tetracycline) 膠囊之重量膠囊之重量 ((mgmg 毫克毫克 )) 如如下表,試製作次數分配表。 下表,試製作次數分配表。

3.1.2 3.1.2 資料表格化法資料表格化法 Tabulation of Data Tabulation of Data

Page 4: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

44

252252 250250 252252 256256 249249

251251 253253 254254 248248 244244

250250 249249 250250 250250 256256

253253 251251 248248 251251 251251

249249 250250 252252 254254 250250

252252 249249 251251 246246 253253

247247 251251 249249 245245 248248

249249 246246 247247 250250 247247

248248 250250 252252 255255 252252

254254 245245 250250 251251 251251

表 3.1 50粒 250mg 四環素膠囊測定重量表 (mg)

資料表格化法資料表格化法 Tabulation of Data Tabulation of Data

Page 5: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

55

組值組值 次數登記次數登記 次數次數 累計次數累計次數 相對次數相對次數 累計相對次數累計相對次數244244245245246246247247248248249249250250251251252252253253254254255255256256

//////////////////////////////////

//////////////////////////////////////////////////////////

11222233446699886633331122

11335588121218182727353541414444474748485050

2%2%4%4%4%4%6%6%8%8%12%12%18%18%16%16%12%12%6%6%6%6%2%2%4%4%

2%2%6%6%10%10%16%16%24%24%36%36%54%54%70%70%82%82%88%88%94%94%96%96%100%100%

合計合計 5050 100%100%

50粒四環素按重量大小排列後次數分配表 ( 未分組 )

資料表格化法資料表格化法 Tabulation of Data Tabulation of Data

Page 6: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

66

分組的方式及步驟:分組的方式及步驟:①①求全距求全距 ((RR):): (最大觀測值 (最大觀測值 — — 最小觀測值)最小觀測值)②②決定組數決定組數 ((kk)) ::

• Sturges (1926) formula:Sturges (1926) formula: • NN 為所有資料的總次數為所有資料的總次數

③③決定組距:組距決定組距:組距 ((dd)) =全距=全距 ((RR)∕)∕ 組數組數 ((KK)) ④④選擇上下組限選擇上下組限⑤⑤訂定上下組界訂定上下組界⑥⑥計算組中點計算組中點 (( 組值組值 ))⑦⑦計算各組次數計算各組次數

101 3.322logK N

資料表格化法資料表格化法 Tabulation of Data Tabulation of Data

Page 7: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

77

• 本例 N =50,所以組數:

• 因此每組之組距: (256—244)/7= 1.714 ~ 2 • 組限最小值為 244,但組距為 2 ,故第一組之上下組

限為 (244,245),第二組組限為 (246,247)。• 因重量為連續變數, 244應在 243.5與 244.5之間

,且第一要包括最小值在內,第一組下組界為最小值減 0.5 → 243.5,第一組上組界為 243.5 + 2 = 245.5,而第二組下上組界為 (245.5, 247.5)。

• 第一組組值 = (243.5+245.5)/2 = 244.5,其他組值依此類推,而得如下分組次數分布表 :

101 3.322log 50 1 3.322 1.7 6.65 7K

資料表格化法資料表格化法

Page 8: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

88

組界組界 組界組界 組值組值(( xx ))

次數次數(( ff

))

累計累計次數次數(( cfcf

))

相對相對次數次數(( rfrf

))

累計相對累計相對次數次數

(( crfcrf ))

244-244-

245245

246-246-

247247

248-248-

249249

250-250-

251251

252-252-

253253

254-254-

255255

256-256-

257257

243.5-243.5-

245.5245.5

245.5-245.5-

247.5247.5

247.5-247.5-

249.5249.5

249.5-249.5-

251.5251.5

251.5-251.5-

253.5253.5

253.5-253.5-

255.5255.5

255.5-255.5-

257.5257.5

244.5244.5

246.5246.5

248.5248.5

250.5250.5

252.5252.5

254.5254.5

256.5256.5

33

55

1010

1717

99

44

22

33

88

1818

3535

4444

4848

5050

6%6%

10%10%

20%20%

34%34%

18%18%

8%8%

4%4%

6%6%

16%16%

36%36%

70%70%

88%88%

96%96%

100%100%

合計合計 5050 100%100%

50粒四環素次數分配表 ( 分組後 )

資料表格化法資料表格化法 Tabulation of DataTabulation of Data

Page 9: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

99

將次數分配表繪製成圖形,能使讀者一目 將次數分配表繪製成圖形,能使讀者一目 瞭然,常用的方法:瞭然,常用的方法:

分立變數分立變數 (discrete variable) 的統計圖:的統計圖:長條圖長條圖 (bar chart)(bar chart) :由若干長條狀所構成,:由若干長條狀所構成,每一長條所代表的是該組的發生次數。每一長條所代表的是該組的發生次數。圓形圖圓形圖 (pie chart)(pie chart) :以圓形的三百六十度為:以圓形的三百六十度為百分之百,而各分類所占的百分比即為扇形百分之百,而各分類所占的百分比即為扇形的角度。的角度。

3.1.3 3.1.3 製圖法製圖法 GraphGraph

Page 10: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1010

長條圖長條圖bar chartbar chart

18

9

23

0

5

10

15

20

25

< 250 = 250 > 250

Page 11: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1111

圓形圖圓形圖pie chartpie chart

> 250,23, (46%)

< 250,18, (36%)

= 250,9, (18%)

Page 12: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1212

連續變數連續變數 (continuous variable) 的統計圖:的統計圖:

莖葉圖莖葉圖 (stem-leaf plot)(stem-leaf plot) :為:為Tukey(1960)Tukey(1960) 提出的,將資料由小到大依序提出的,將資料由小到大依序排列,將每一觀察值分成兩部分,一部分屬排列,將每一觀察值分成兩部分,一部分屬於於「莖」「莖」 (stem)(stem) ,其餘的屬於,其餘的屬於「葉」「葉」 (leaf)(leaf) ,,可以洞悉資料的集中與分散情形。可以洞悉資料的集中與分散情形。直方圖直方圖 (histogram)(histogram) :與長條圖非常類似,:與長條圖非常類似,適用於連續變數並且分組的資料,作法如同適用於連續變數並且分組的資料,作法如同長條圖,橫軸代表各組的組值,縱軸代表各長條圖,橫軸代表各組的組值,縱軸代表各組的次數。組的次數。

製圖法製圖法 Graph Graph

Page 13: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1313

莖葉圖莖葉圖 (stem-leaf plot)(stem-leaf plot)

5050 位位 1212 歲男學童之收縮壓記錄歲男學童之收縮壓記錄 ------------------------------------------------------------------------------------ 120 98 96 100 128120 98 96 100 128 88 90 108 102 9188 90 108 102 91 94 100 80 93 10594 100 80 93 105 100 104 95 106 100100 104 95 106 100 105 106 107 84 106105 106 107 84 106 98 110 112 90 11398 110 112 90 113 96 104 114 105 116 96 104 114 105 116 102 113 96 115 124102 113 96 115 124 108 118 104 120 130108 118 104 120 130 119 128 126 133 95119 128 126 133 95--------------------------------------------------------------------------------

Page 14: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1414

十位數以上十位數以上為莖為莖 ,,個位數個位數為葉為葉

莖葉圖莖葉圖stem-leaf plotstem-leaf plot

次數次數 莖莖 (stem)(stem) 葉葉 (leaf)(leaf) - - 個位數個位數3312121818996622

88991010111112121313

0 4 80 4 80 0 1 3 4 5 5 6 6 6 8 80 0 1 3 4 5 5 6 6 6 8 80 0 0 0 2 2 4 4 4 5 5 5 6 6 6 0 0 0 0 2 2 4 4 4 5 5 5 6 6 6 7 8 87 8 80 2 3 3 4 5 6 8 90 2 3 3 4 5 6 8 90 0 4 6 8 80 0 4 6 8 80 30 3

5050 合計合計

1212 歲男童之血液收縮壓莖葉圖:歲男童之血液收縮壓莖葉圖:

Page 15: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1515

莖葉圖莖葉圖stem-leaf plotstem-leaf plot

9

0 0

1 3

4 5

56

6 6

88

10

0 0

0 0

2 2

44

5 4

55……

莖莖 (stem)(stem) 莖莖 (stem)(stem)

葉葉 (leaf)(leaf)

Page 16: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1616

0

5

10

15

20

242.5

244.5

246.5

248.5

250.5

252.5

254.5

256.5

258.5

直方圖直方圖histogramhistogram

Page 17: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1717

連續變數的統計圖連續變數的統計圖 (( 續續 )) :: 多邊圖多邊圖 (polygon)(polygon) :以直線連接直方圖之各:以直線連接直方圖之各組頂點組頂點 (( 組值組值 )) ,並在第一組之前及最後一,並在第一組之前及最後一組之後各加一組當作假想組,此兩組的次數組之後各加一組當作假想組,此兩組的次數皆設為皆設為 00 ,以連接成一封閉的曲線。,以連接成一封閉的曲線。累計次數多邊圖累計次數多邊圖 (cumulative frequency (cumulative frequency polygon)polygon) ::以各組之以各組之組值為中心點組值為中心點與累積次與累積次數數為座標,並將所得的點連接起來,則可得為座標,並將所得的點連接起來,則可得一累計次數曲線圖一累計次數曲線圖。。

製圖法製圖法 Graph Graph

Page 18: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1818

0

5

10

15

20

242.5

244.5

246.5

248.5

250.5

252.5

254.5

256.5

258.5

多邊圖多邊圖polygonpolygon

Page 19: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

1919

0

10

20

30

40

50

244.5 246.5 248.5 250.5 252.5 254.5 256.5

累計次數多邊圖累計次數多邊圖cumulative frequency polygoncumulative frequency polygon

Page 20: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2020

百分位數:將順序排列後的資料化分為一百等分,百分位數:將順序排列後的資料化分為一百等分,通常以第通常以第 kk 個百分位數稱之,代表資料中有多少個百分位數稱之,代表資料中有多少百分比之樣品是在此分數之下。如樣品大小為百分比之樣品是在此分數之下。如樣品大小為 nn

其第其第 kk 個百分位數計算式如下個百分位數計算式如下 ::

百分位數百分位數 percentilepercentile

1100

1100 100

100

1

2 100

kn

k

k kn n

kx n

Qk

x x n

;如果 不是整數

如果 是整數。

Page 21: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2121

四分位數:將順序資料分成四等分,第四分位數:將順序資料分成四等分,第 11 四分四分位數位數 QQ11 為第為第 2525 百分位數,第百分位數,第 22 四分位數四分位數 QQ22 為為第第 5050 百分位數,即中量百分位數,即中量 (( 中位數中位數 ));第;第 33 四分四分位數位數 QQ33為第為第 7575 百分位數。百分位數。

百分位數百分位數 percentilepercentile

25%25% 25%25% 25%25% 25%25%

QQ11 QQ22 QQ33

Page 22: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2222

一百等分一百等分之之

設 設 ((nn 為樣品點數為樣品點數 ,,PP 為百分為百分數數 ))

若若 kk 不是整數不是整數 ,,則 則 ==kk 取整數取整數 +1+1 的變數的變數

若若 kk 是整數是整數 ,,則 則 ==

1 2 3, ,Q Q Q之百分位數求法

100

Pk n

QX

QX 1

1( )

2 k kX X

Page 23: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2323

例如例如 5050 粒四環素之百分位數粒四環素之百分位數 (( 未分組資料未分組資料 ,,表表3.23.2a)a)

1 12 1 13

2 25 26

3 37 1 38

2525%, 50 12.5

100249

5050%, 50 25

1001 1

( ) (250 250) 2502 2

7575%, 50 37.5

100252

P k

Q X X

P k

Q X X

P k

Q X X

Page 24: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2424

累計次數百分位數圖累計次數百分位數圖cumulative frequency polygoncumulative frequency polygon

Page 25: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2525

盒鬚圖盒鬚圖Box and whisker plotBox and whisker plot

又稱為箱型圖又稱為箱型圖 (box plot)(box plot) 。盒鬚圖乃依據五個。盒鬚圖乃依據五個彙整量數彙整量數——最小值、 第一四分位數、中位數最小值、 第一四分位數、中位數 (( 中中量量 )) 、第三四分位數,以及最大值、第三四分位數,以及最大值——所畫出的一所畫出的一種表示資料特性的統計圖形。種表示資料特性的統計圖形。

補充

MedianMedian

44 66 88 1010 1212

QQ33QQ11 XXlargestlargestXXsmallestsmallest

Page 26: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

資料分布與盒鬚圖之關係資料分布與盒鬚圖之關係 (Shape & Box (Shape & Box Plot)Plot)

Right-SkewedRight-SkewedLeft-SkewedLeft-Skewed SymmetricSymmetric

QQ11 MedianMedian QQ33QQ11 MedianMedian QQ33 QQ11 MedianMedian QQ33

左偏斜分布中量偏右 常態分布中量在中間 右偏斜分布中量偏左

Page 27: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2727

連續變數的統計圖連續變數的統計圖 (( 續續 )) :: 散布圖散布圖 (scatter plot)(scatter plot) :散布圖應用於兩連:散布圖應用於兩連續變數有密切關係的研究上。續變數有密切關係的研究上。

• 88 位健康男性之血液中膽固醇位健康男性之血液中膽固醇 (cholesterol)(cholesterol)與舒張壓與舒張壓 (diastolic blood pressure)(diastolic blood pressure) 之關之關係:係:成人成人 11 22 33 44 55 66 77 88

膽固醇膽固醇(( xx ))

222255

202077

272700

212177

282855

272744

232366

181855

舒張壓舒張壓(( yy ))

7676 8080 9090 7474 101000

8888 7878 7070

散布圖散布圖 (scatter plot)(scatter plot)

Page 28: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2828

散布圖散布圖scatter plotscatter plot

60708090

100110120

160 180 200 220 240 260 280 300

x 膽固醇

y舒張壓

Page 29: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

2929

3.2 3.2 中心位置測定值中心位置測定值 Measures of Central LocationMeasures of Central Location

以一個數值來描述資料分布的中心位置以一個數值來描述資料分布的中心位置。。算術平均值算術平均值 (arithmetic mean)(arithmetic mean) ::又簡稱均值,又簡稱均值,為所有觀測值的總和除以觀測值的個數即為算為所有觀測值的總和除以觀測值的個數即為算術平均值,當資料是連續變數時適用。 術平均值,當資料是連續變數時適用。 中量中量 (median)(median) ::或稱或稱中位數中位數,是將資料由小,是將資料由小到大順序排列後,位於中心到大順序排列後,位於中心 (( 中間中間 )) 的數值。 的數值。 眾量眾量 (mode)(mode) ::或稱或稱眾數眾數,指資料中出現次數,指資料中出現次數最多的觀測值或分組名稱。 最多的觀測值或分組名稱。

Page 30: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3030

樣品平均值樣品平均值 ( ( :讀音:讀音 x-barx-bar)) ::x

nxxn

ii

1

)( 211

n

n

ii xxxx

其中

式中 (讀音 Summation or sigma )為總和符號

族群平均值族群平均值 ((μμ :讀音:讀音mumu)) ::

NxN

ii

1

樣品點 (sample point)

3.2.1 3.2.1 算術平均值算術平均值 Arithmetic Mean Arithmetic Mean

Page 31: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3131

例 3.1

表 3.4 台北市某醫院一星期內 20位初生嬰兒體重表(克)

11 32643264 66 33233323 1111 25802580 1616 27582758

22 32603260 77 36503650 1212 28452845 1717 32483248

33 32453245 88 32003200 1313 35853585 1818 33253325

44 34843484 99 30303030 1414 24802480 1919 33153315

55 41464146 1010 20702070 1515 35423542 2020 31063106

i ix i i iix ix ix

樣品算術平均值樣品算術平均值sample sample Arithmetic MeanArithmetic Mean

Page 32: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3232

將此將此 2020個觀測值當作一樣品,求此樣品算數平均值( )個觀測值當作一樣品,求此樣品算數平均值( )

x

算術平均值的限制:當資料有極端值時,平均值就易受影響,所以是非常算術平均值的限制:當資料有極端值時,平均值就易受影響,所以是非常敏感的。敏感的。如第一位嬰兒為早產兒如第一位嬰兒為早產兒,, 體重為體重為 12001200克克 ,, 其算術平均值變為其算術平均值變為 3087.63087.6克克

8.319020/63816

20/)31063264(

x

算術平均值算術平均值 Arithmetic MeanArithmetic Mean

Page 33: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3333

表 3.4 台北市某醫院一星期內初生嬰兒體重表(克)

11 32643264 66 33233323 1111 25802580 1616 27582758

22 32603260 77 36503650 1212 28452845 1717 32483248

33 32453245 88 32003200 1313 35853585 1818 33253325

44 34843484 99 30303030 1414 24802480 1919 33153315

55 41464146 1010 20702070 1515 35423542 2020 31063106

i ix i i iix ix ix1200

8.3190x 6.3087x

算術平均值算術平均值 Arithmetic MeanArithmetic Mean

Page 34: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3434

如擲一骰子出現如擲一骰子出現 1 2 3 4 5 61 2 3 4 5 6等等 66 個觀測值,個觀測值,如視為一族群,則其族群如視為一族群,則其族群算術平均值( )算術平均值( )為:為:

5.36/)654321(

族群算術平均值族群算術平均值population population Arithmetic MeanArithmetic Mean

Page 35: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3535

平移平移:將原資料同加減一個常數:將原資料同加減一個常數 (C)(C) 的方式,的方式,則新資料之平均值為原來平均值加減此常數。則新資料之平均值為原來平均值加減此常數。

。cxncxn

cxn

cxn

yn

yn

ii

n

i

n

ii

n

ii

n

ii

11 111

11)(

11

3.2.2 3.2.2 算術平均值之性質算術平均值之性質 Properties of Arithmetic Properties of Arithmetic

MeanMean

ii 原觀測值原觀測值 新觀測值新觀測值11 55 5+5+22=7=7

22 22 2+2+22=4=4

33 1010 10+10+22=12=12

44 33 3+3+22=5=5

平均平均 55 5+5+22=7=7

Page 36: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3636

調整尺度調整尺度:將原有的每一個觀測值同時乘以常:將原有的每一個觀測值同時乘以常數數 CC 倍,則新資料之平均值為原來的倍,則新資料之平均值為原來的 CC 倍。倍。

xcxnccx

ny

ny

n

ii

n

ii

n

ii

111

111

算術平均值之性質算術平均值之性質 Properties of Arithmetic MeanProperties of Arithmetic Mean

ii 原觀測值原觀測值 新觀測值新觀測值11 55 5×5×22=10=10

22 22 2×2×22=4=4

33 1010 10×10×22=20=20

44 33 3×3×22=6=6

平均平均 55 5×5×22=10=10

Page 37: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3737

算術平均值之性質算術平均值之性質 Properties of Arithmetic Mean Properties of Arithmetic Mean

偏差偏差 (deviation):(deviation): 每一樣品觀測值與其平均值每一樣品觀測值與其平均值之差,或稱離均差,以式表示為:之差,或稱離均差,以式表示為: xxD ii

0)(1111

xnxnxxxxDn

i

n

ii

n

ii

n

ii

•而偏差總和等於 0

ii 原觀測值原觀測值11 55 5-5=05-5=0

22 22 2-5=-32-5=-3

33 1010 10-5=510-5=5

44 33 3-5=-23-5=-2

平均平均 55 00

xxD ii

Page 38: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3838

每一樣品觀測值與其平均值之偏差平方的和,每一樣品觀測值與其平均值之偏差平方的和,稱為稱為平方和平方和 (sum of squares)(sum of squares) ,,此值為最小此值為最小,,以式表示為:以式表示為:

n

ii xxSS

1

2)(

算術平均值之性質算術平均值之性質 Properties of Arithmetic MeanProperties of Arithmetic Mean

2 2 2 2(5 5) (2 5) (10 5) (3 5) 38SS

原觀測值:原觀測值: 5,2,10,3 5,2,10,3 平均值=平均值= 55

如以 如以 aa == 4 4 替代平均值 替代平均值 552 2 2 2(5 4) (2 4) (10 4) (3 4) 42 38SS

Page 39: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

3939

22 33 55 1010

XX = 5= 5

22 3355

1010

aa = 4= 4

算術平均值之性質算術平均值之性質 Properties of Arithmetic Mean Properties of Arithmetic Mean

Page 40: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4040

中量中量 (median)(median) ::是將資料由小到大順序排是將資料由小到大順序排列後,位於中心列後,位於中心 (( 間間 )) 的數值稱之,為使的數值稱之,為使用率僅次於算數平均數的中心位置測定值。用率僅次於算數平均數的中心位置測定值。

為偶數如果

為奇數如果

nxx

nx

Med

nn

n

)12

()2

(

)2

1(

2

1

中量僅能決定樣品資料的中間值,無法反應中量僅能決定樣品資料的中間值,無法反應其他樣品點的真正數值。其他樣品點的真正數值。

3.2.3 3.2.3 中量中量 ( ( Median)Median)

Page 41: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4141

例例 3.33.3 :某醫院入院病人的白血球測定數目:某醫院入院病人的白血球測定數目 (×10(×1033)) :: 8,30,6,9,8,3,12,15,188,30,6,9,8,3,12,15,18

大小排列後:大小排列後: 3,6,8,8,3,6,8,8,99,12,15,18,30,12,15,18,30• 因因 n=9n=9 為奇數為奇數

• 若僅取前面若僅取前面 88 個觀測值,個觀測值, n=8n=8 為為偶數偶數

中量中量 ( ( Median )Median )

(5)

1 9 15 9

2 2

nMed X

(4) (5)

1 8 94, ( ) 8.5

2 2 2

nMed X X

Page 42: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4242

眾量眾量 (mode)(mode) ::指資料中發生次數最多的指資料中發生次數最多的觀測值。當數據或名稱各只出現一次時,觀測值。當數據或名稱各只出現一次時,眾量便不存在,但因次數可能相同,故眾眾量便不存在,但因次數可能相同,故眾量可能不唯一。 量可能不唯一。

眾量很少被採用,其數學運算性質不高。眾量很少被採用,其數學運算性質不高。

3.2.4 3.2.4 眾量眾量 ( ( Mode )Mode )

例例 3.43.4 :某村里:某村里 100100 個家庭之子女數,個家庭之子女數,其眾量為其眾量為 22(( 發生次數為發生次數為 48)48)

Page 43: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4343

100100 個家庭子女數個家庭子女數

子女數子女數 ((x) x) 家庭數家庭數 ((f)f) -------------------------------------------------- 0 20 2 1 151 15 2 482 48 3 263 26 4 64 6 5 25 2 6 16 1 --------------------------------------------------

Page 44: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4444

3.2.5 3.2.5 中心位置測定值的關係中心位置測定值的關係

當資料是左右對稱的分配時,則平均數、當資料是左右對稱的分配時,則平均數、中位數及眾量三者皆相等中位數及眾量三者皆相等 (( 常態分配常態分配 )) 。。右偏分配:眾量最小,中位數居中,平均右偏分配:眾量最小,中位數居中,平均值最大。值最大。左偏分配:平均值最小,中位數居中,眾左偏分配:平均值最小,中位數居中,眾量最大。量最大。

Page 45: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4545

(a)常態分布

xMed

0M

xMed0M

(b)右態分布

x Med 0M

(c)左態分布

圖 3.8 常態分布與偏斜分布

3.2.5 3.2.5 中心位置測定值的關係中心位置測定值的關係

Page 46: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4646

3.2.6 3.2.6 幾何平均幾何平均 ((Geometric mean)Geometric mean)

若觀測值均為正數且其分佈為右偏若觀測值均為正數且其分佈為右偏 ,, 算術算術平均數未能代表均中性平均數未能代表均中性 ,, 故先取對數轉換故先取對數轉換((Logarithmic Transformation),Logarithmic Transformation), 轉轉換後之觀測值分布數為對稱換後之觀測值分布數為對稱–計算其算術平均數計算其算術平均數–再取反對數轉換再取反對數轉換–得幾何平均數得幾何平均數–→→原始觀測值的中量原始觀測值的中量

Page 47: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4747

設設 xx11,x,x22, …,x, …,xnn為一樣品資料,各樣品點取為一樣品資料,各樣品點取對數之平均值設為 如下對數之平均值設為 如下::

則幾何平均值 如下則幾何平均值 如下

或以下式開或以下式開 nn 次方也是,得為次方也是,得為

101

1log

n

ii

u Xn

log( ) 10ugx anti u

1 2......ng nx x x x

gx

u

Page 48: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4848

下列資料是下列資料是 1010 位病人服藥後藥量吸收達到最位病人服藥後藥量吸收達到最大之時間大之時間 (( 小時小時 ) ) ,試求其算術平均值,中,試求其算術平均值,中量及幾何平均值量及幾何平均值

病人病人 11 22 33 44 55 66 77 88 99 1010TTmaxmax 0.800.80 0.900.90 1.101.10 1.151.15 1.181.18 1.811.81 2.032.03 2.212.21 2.582.58 3.353.35

(0.8+ +3.35)/10 1.71

Med (1.18 1.81) / 2 1.50

x

算術平均值中量

幾何平均值 之求法如下幾何平均值 之求法如下令令

gx

10 1 10

10 10

0.18775

(log log ) /

(log 0.8 log 3.35) /10 0.18775

log( ) 10 10 1.54

1.50 1.54 1.71

n

ug

g

u x x n

x anti u

Med x x

Page 49: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

4949

3.2.7 3.2.7 調和平均值調和平均值 ((Harmonic Harmonic mean)mean)

各觀測值之倒數平均值,其計算式如下各觀測值之倒數平均值,其計算式如下

1 2

1 2

11 1 1 1

( )

1 1 1( )

H

n

n

x

n x x x

n

x x x

Page 50: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5050

例子: 例如某人到三家雜貨店買雞蛋,每家每個蛋之價錢分別為 3.5 , 4, 5元,求一顆蛋平均多少錢?由( 3.7)式,

此結果與算數平均值 ( 元 )略有出入。

34.08

1 1 13.5 4 5

Hx

4.17x

Page 51: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5151

3.2.8 3.2.8 分組資料的求法分組資料的求法

分組資料算數平均值的求法分組資料算數平均值的求法 (( 例子見表例子見表3.2b)3.2b) ::

1.算數平均值:

k

ii

k

iii fxfx

11

/

if :組次數 ix:組中點, k :組數

25.250

50

5.25625.24655.244350/

7

1

iiixfx

Page 52: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5252

3.3 3.3 分散度分散度 (( 變異數變異數 )) 測定測定值值

Measures of dispersionMeasures of dispersion 分散度測定值可用來描述資料中觀測值大小分散度測定值可用來描述資料中觀測值大小分分散或集中程度散或集中程度。例如:兩個樣品的分配可能有。例如:兩個樣品的分配可能有同樣的中心位置,但卻有不同的分散度測定值。同樣的中心位置,但卻有不同的分散度測定值。

人工測定法(mg% / ml)

機器自動測定法(mg% / ml)

圖 3.9 同一組資料人工測定與機器自動化測定尿酸紀錄圖

8x

4.5 6.5 10 12

98 1076

Page 53: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5353

3.3.1 3.3.1 全距及偏差全距及偏差 (( Range and Range and DeviationDeviation ) )

全距全距 (range)(range) :即樣品中最大值與最小值之差,:即樣品中最大值與最小值之差,為分散度最簡單的表示法,但容易受到極端值為分散度最簡單的表示法,但容易受到極端值的影響。的影響。平均偏差平均偏差 (mean deviation)(mean deviation) :是將各觀測值:是將各觀測值與平均值之偏差與平均值之偏差 (deviation)(deviation) 取絕對值後之總取絕對值後之總和除以樣品觀測值總數而得,可是實際上我們和除以樣品觀測值總數而得,可是實際上我們很少採用,因為平均偏差公式在數理上無法作很少採用,因為平均偏差公式在數理上無法作運算或分解,故其用處不多。運算或分解,故其用處不多。

Page 54: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5454

平均偏差公式平均偏差公式

1

14.5 8 6.5 8 7 8 10 8 12 8

512

2.45

MD x xn

4.5, 6.5, 7, 10, 12 如尿酸人工測定法

MD=

Page 55: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5555

族群變異數( ):族群變異數( ): 族群標準偏差( ):族群標準偏差( ):

樣品變異數( ): 樣品變異數( ):

樣品標準偏差( ): 樣品標準偏差( ):

2

2S

S

NxN

ii

1

22

NxN

ii

1

2

)1(1

22

nxxSn

ii

)1(1

2

nxxSn

ii

3.3.2 3.3.2 變異數與標準偏差變異數與標準偏差 (( 或標準差或標準差 )) Variance and Standard DeviationVariance and Standard Deviation

Page 56: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5656

族群變異數族群變異數 設族群資料有設族群資料有 N N 個觀測值,其平均值為 ,個觀測值,其平均值為 ,則各觀測值則各觀測值偏差平方後偏差平方後之總和除以之總和除以 N N 即即得一變異數得一變異數 (variance)(variance)特稱此變異數為特稱此變異數為變變方方,統計學上均以 ,統計學上均以 (( 讀音讀音 sigma sigma

squaresquare)) 符號表示之。符號表示之。以式表示為以式表示為 2

NxN

ii

1

22

Page 57: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5757

族群標準偏差族群標準偏差 將將族群族群變方變方開方,取其正值即得,所得之開方,取其正值即得,所得之數值在統計學上稱為數值在統計學上稱為標準偏差標準偏差 (standard (standard

deviation)deviation) ,,以式表示為以式表示為

NxSDN

ii

1

22

Page 58: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5858

例子 例子 3.83.8 (族群)(族群)例 3.8:擲一骰子,族群觀測值為1,2,3,4,5,6

=3.5, N=6則平方和:

2

2 2 2

1

2 2 2 2

1 3.5 2 3.5

6 3.5 17.5 1 2 ... 6 21 / 6

N

ii

SS x

變方: 9167.265.171

22

NSSNxN

ii

標準偏差: 7078.19167.22 SD

Page 59: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

5959

樣品變異數樣品變異數族群資料往往很大或無限大,其取得不易,族群資料往往很大或無限大,其取得不易,而且族群平均值實際上亦未知,以樣品資而且族群平均值實際上亦未知,以樣品資料求得樣品變異數,以推估族群變異數,料求得樣品變異數,以推估族群變異數,一般稱此樣品變異數為一般稱此樣品變異數為均方均方 (mean (mean

square)square) 。。以式表示為以式表示為

22

1

( 1)n

ii

S x x n

Page 60: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6060

樣品標準偏差樣品標準偏差

將樣品均方開方,取其正值即得。以式表將樣品均方開方,取其正值即得。以式表示為示為

22

1

( 1)n

ii

S S x x n

Page 61: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6161

自由度自由度Degrees of freedom (df)Degrees of freedom (df)

樣品內獨立而能自由變動的個數。樣品內獨立而能自由變動的個數。觀測值個數減掉約束、限制條件的個數。觀測值個數減掉約束、限制條件的個數。樣品變異數樣品變異數 (( 均方均方 ):):• 獨立而能自由變動的個數為 獨立而能自由變動的個數為 n-1n-1 。。• 限制條件為限制條件為

0)(1

n

ii xx

Page 62: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6262

樣品均方之簡便計算式樣品均方之簡便計算式

nxxn

xnxn

xnxnxn

xxxxn

xxxxn

xxn

S

n

ii

n

ii

n

ii

n

ii

n

i

n

i

n

iii

n

iii

n

ii

2

11

2

1

22

2

1

22

1 1 1

22

1

22

1

22

1

1

1

1

21

1

21

1

)2(1

1)(

1

1

Page 63: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6363

例子 例子 3.9 & 3.103.9 & 3.10 (樣品)(樣品)

假設同一組資料使用兩種不同方法測定人體血液中尿酸 (uric acid)濃度,資料如下。試分別求人工測定法與儀器自動測定法尿酸濃度之均方及標準偏差。資料記錄圖,如圖3.9。人工測定法人工測定法((mg%/mlmg%/ml )) 4.4.

556.6.55

77 1010 1212

機器自動測定機器自動測定((mg%/mmg%/mll ))

66 77 88 99 1010

Page 64: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6464

例子 例子 3.103.10 (樣品)(樣品)

均方:

標準偏差:

以簡算式求得 人工測定法:

自動測定法:

40 ix 5.3552 ix

875.845.3545405.355 22 S

979.2875.82 SS

40 ix 3302 ix

均方:

標準偏差:

5.24104540330 22 S

58.15.22 SS

Page 65: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6565

3.3.4 3.3.4 變異數與標準偏差之性變異數與標準偏差之性質質

平移後之樣品變異數平移後之樣品變異數::原樣品 nxxx ,,, 21 及新樣品 nyyy ,,, 21 ,其中 i iy cx

2 2 2

2 2

1 1 1

1 1 1

1 1 1

n n n

y i i i xi i i

s y y x c x c x x sn n n

I 原觀察值 新觀測值 新觀測值偏差 新觀測值偏差平方1 4.5 4.5-8=-3.5 -3.5-0=-

3.512.5

2 6.5 6.5-8=-1.5 -1.5-0=-1.5

2.25

3 7 7-8=-1 -1-0=-1 1

4 10 10-8=2 2-0=2 4

5 12 12-8=4 4-0=4 16

平均 8 8-8=0 和 35.5

新觀測值均方與標準偏差與原觀測值均方與標準偏差相同

例 3.11:人工測定法尿酸值減常數 c=8

Page 66: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6666

變異數與標準偏差之性質變異數與標準偏差之性質

調整尺度後之樣品變異數調整尺度後之樣品變異數::新樣品 nyyy ,,, 21 ,其中 i iy cx

例 3.12:人工測定法尿酸值乘常數 c=2

2 2 2

2 2 2 2

1 1 1

1 1 1

1 1 1

n n n

y i i i xi i i

s y y cx cx c x x c sn n n

ii 原觀察值原觀察值 新觀測值新觀測值 新觀測值偏差新觀測值偏差 新觀測值偏差平方新觀測值偏差平方11 4.54.5 4.5*2=94.5*2=9 -7=-3.5*2-7=-3.5*2

22 6.56.5 6.5*2=136.5*2=13 -3=-1.5*2-3=-1.5*2

33 77 7*2=147*2=14 -2=-1*2-2=-1*2

44 1010 10*2=2010*2=20 4=2*24=2*2

55 1212 12*2=2412*2=24 8=4*28=4*2

平均平均 88 16=2*816=2*8 和和

2 29 1.5 2

2 249 3.5 2

2 24 1 2

2 216 2 2

2 264 4 2

2142 35.5 2

Page 67: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6767

從從 NN 個觀測值之族群中,以個觀測值之族群中,以歸還抽樣法歸還抽樣法抽取抽取 nn個觀測值為樣品,可得 個可能樣品,分別求個觀測值為樣品,可得 個可能樣品,分別求此 個樣品的均值,而這些樣品均值可視為一此 個樣品的均值,而這些樣品均值可視為一個新族群的觀測值,其平均值及變方,可依照個新族群的觀測值,其平均值及變方,可依照族群資料的求法。族群資料的求法。例例 3.133.13 :設族群觀測值為:設族群觀測值為 2,5,82,5,8 , , 從此族群中抽取從此族群中抽取 n=2n=2 個觀測值為樣品,其所有個觀測值為樣品,其所有可能樣品及其均值列如表可能樣品及其均值列如表 3.73.7 。。

nN

6,5,3 2 N

3.3.5 3.3.5 標準誤差標準誤差 (( 或標準誤或標準誤 )) Standard ErrorStandard Error

Page 68: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6868

標準誤差標準誤差 ((Standard Standard Error)Error)

樣品樣品 均值均值 均方均方

2,22,2

2,52,5

2,82,8

5,25,2

5,55,5

5,85,8

8,28,2

8,58,5

8,88,8

22

3.53.5

55

3.53.5

55

6.56.5

55

6.56.5

88

99

2.252.25

00

2.252.25

00

2.252.25

00

2.252.25

99

00

4.54.5

1818

4.54.5

00

4.54.5

1818

4.54.5

00

00

2.252.25

99

2.252.25

00

2.252.25

99

2.252.25

00

和和均值均值

4545

552727

335454

662727

33

x 2( )x 2

2 ( )

( 1)ix x

Sn

2

2 ( )ib

x xS

n

( ) 2( / )n 2( )

Page 69: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

6969

此值恰等於族群變方 除以樣品大小此值恰等於族群變方 除以樣品大小 nn

5985.3299

1

i

ix x

39925.2999

1

22

i

x x

此值恰等於族群均值此值恰等於族群均值

2

_

22 6

3 1.732x

x n

標準誤差

標準誤差標準誤差 Standard Error Standard Error

Page 70: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

7070

3.3.6 3.3.6 族群母數族群母數 (( 或參數或參數 )) 與樣品統計與樣品統計值值((population parameter and sample population parameter and sample statistic)statistic) 族群母數族群母數 ::

樣品統計值樣品統計值 ::

_ _

2 2, , , ,x x

_2, ,S Sx

Page 71: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

7272

若兩樣品資料的測量單位不同時,我們該如何比若兩樣品資料的測量單位不同時,我們該如何比較它們的分散情形呢?若以均方或標準偏差大小較它們的分散情形呢?若以均方或標準偏差大小而定是不恰當的,因為通常平均數的大小會影響而定是不恰當的,因為通常平均數的大小會影響均方及標準偏差,此時可以均方及標準偏差,此時可以變異係數變異係數來計算相對來計算相對分散程度的情形。分散程度的情形。

變異係數定義:變異係數定義:

族群變異係數:族群變異係數:

樣品變異係數:樣品變異係數:

100%CV 標準偏差平均值

%100

CV

%100x

SCV

3.4 3.4 變異係數變異係數 Coefficient of Variation (CV)Coefficient of Variation (CV)

Page 72: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

7373

兩單位標準偏差雖不同 , 但變異係數相同

例 3.14:設今有五位初生嬰兒體重如下 :

X(以克為單位 ):3260,3246,3324,3200,2850

Y(以盎司為單位 ):114.99,115.50,117.25,112.87,100.53

變異係數變異係數 (CV)(CV)

_215880, 3176, 35178i xx x S

_2560.14, 112.028, 43.7665i yy y S

35178 187.5580, 43.7665 6.6156x yS S 187.5580

100% 5.905%3176xCV

6.6156100% 5.905%

112.028yCV

Page 73: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

7474

解:乍看之下,身高的標準偏差遠大於體重的標準偏差,但因兩者的單位不同,不宜直接由標準偏差的大小來說明分散程度大小,此時應利用變異係數來回答本問題才正確。

例 3.16:假設調查 10 位成人的平均身高為 166 公分,標準偏差為 36.8 公分;平均體重為 62.5 公斤,標準偏差為 12.3 公斤,試問身高和體重哪一項分散程度較大?

變異係數變異係數 (CV)(CV)

Page 74: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

7575

變異係數變異係數 (CV)(CV)

身高: %17.22%100166

8.36CV

體重: %68.19%1005.62

3.12CV

由此可知,此 10位成人體重的分散程度較身高來得小。

Page 75: 資料的整理與呈現 表格化法與製圖法 中心位置測定值 分散度測定值 變異係數

7676

The End