33
第9第 第第第第 介介 1 介介介介介介介 2 介介介介介介介

第 9 章 方差分析

Embed Size (px)

DESCRIPTION

第 9 章 方差分析. 介绍 1 、方差分析的概念 2 、方差分析的过程. 本章内容. 9.1 方差分析的概念与方差分析的过程 9.2 单因素方差分析 9.3 单因变量多因素方差分析过程 9.4 多因变量线性模型的方差分析 9.5 重复测量设计的方差分析 9.6 方差成分分析 9.7 正交实验设计 练习题(对银行数据进行方差分析). 9.1.1 方差分析的概念. 在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异 方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如 - PowerPoint PPT Presentation

Citation preview

Page 1: 第 9 章   方差分析

第 9 章 方差分析 介绍 1 、方差分析的概念 2 、方差分析的过程

Page 2: 第 9 章   方差分析

本章内容9.1 方差分析的概念与方差分析的过程9.2 单因素方差分析9.3 单因变量多因素方差分析过程9.4 多因变量线性模型的方差分析9.5 重复测量设计的方差分析9.6 方差成分分析9.7 正交实验设计练习题(对银行数据进行方差分析)

Page 3: 第 9 章   方差分析

9.1.1 方差分析的概念在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如 医学界研究几种药物对某种疾病的疗效; 农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响 不同饲料对牲畜体重增长的效果等都可以使用方差分析方法去解决

Page 4: 第 9 章   方差分析

方差分析基本原理认为不同处理组的均值间的差别基本来源有两个 : ( 1 )随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作 SSw ,组内自由度 dfw ( 2 )实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作 SSb ,组间自由度 dfb 总偏差平方和 SSt 、 SSb 、 SSw 的公式 P147

Page 5: 第 9 章   方差分析

方差分析基本原理(续)组内 SSw 、组间 SSb 除以各自的自由度 ( 组内dfw =n-m ,组间 dfb=m-1 ,其中 n 为样本总数, m 为组数 ) ,得到其均方 MSw 和 MSb ,一种情况是处理没有作用,即各组样本均来自同一总体, MSb/MSw≈1 。另一种情况是处理确实有作用,那么, MSb>>MSw ( 远远大于 ) 。MSb/MSw 比值构成 F 分布,用 F 值与其临界值比较,推断各样本是否来自相同的总体 .

Page 6: 第 9 章   方差分析

方差分析的假设检验零假设 H0 : m 组样本均值都相同,即 μ1= μ2=....= μm如果经过计算结果组间均方远远大于组内均方( MSb>>MSw ), F>F0.05(dfb,dfw), p<0.05 ,拒绝零假设, 说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义;否则 , F<F0.05((dfb,dfw), p>0.05 不能拒绝零假设,说明样本来自相同的正态总体,处理间无差异。

Page 7: 第 9 章   方差分析

9.1.2 方差分析中的术语1 、因素与处理:因素是影响因变量变化的客观条件;处理是影响因变量变化的人为条件。也可通称为因素。用分类变量表示,取有限的离散值2 、水平:因素的不同等级称作水平。水平值取有限的离散值。如:性别中的 0 , 1 (男、女)等3 、单元 (cell) :指各因素的水平之间的每个组合。如性别 (0,1) 和年龄 (10,11,12) 的六种组合。

Page 8: 第 9 章   方差分析

9.1.2 方差分析中的术语(续)4 、因素的主效应和因素间的交互效应(如药物A 、 B 的主效应及 AB 的交互效应)5 、均值比较: 均值的相对比较是比较各因素对因变量的效应大小的相对比较,如研究 A 、 B 的单独效应之和是否等于它们的交互效应,或 A 、 B 的效应是否相等。 均值的多重比较是研究因素单元对因变量的影响之间是否存在显著性差异。如 A 、 B 的疗效是否存在显著性差异。6 、单元均值、边际均值: 在多因素方差分析中,每种因素水平组合的因变量均值称为单元均值。一个因素水平的因变量均值称为边际均值( Marginal Means)

Page 9: 第 9 章   方差分析

方差分析中的术语(续)7 、协方差分析:在一般进行方差分析时,要求除研究的因素外应该保证其他条件的一致。作动物实验往往采用同一胎动物分组给予不同的处理,研究不同处理对研究对象的影响就是这个道理。如研究身高与体重的关系时要求按性别分别进行分析,以消除性别因素的影响。要消除其他因素的影响,应采用协方差分析。8、重复测量:组内变异的主要的原因是实验对象之间的个体差异。由于个体差异存在,即使实验对象受到相同的处理,他们的因变量值也可能相当不同。重复测量设计的方差分析也是像协方差分析一样,是在研究中减少个体差异带来的误差方差的一种有效方法,而且由于对相同个体进行重复测量,在一定程度上降低了人力、物力、财力的消耗。如果重复测量是在一段时间内或一个温度间隔内进行的,还可以研究因变量对时间、温度等自变量的变化趋势,这种重复测量研究称为趋势研究。

Page 10: 第 9 章   方差分析

9.1.3 方差分析过程1 、 One-Way过程:单因素简单方差分析过程。在 Compare Means 菜单项中,可以进行单因素方差分析、均值多重比较和相对比较。2 、General Linear Model(简称 GLM)过程: GLM 过程由 Analyze菜单直接调用。这些过程可以完成简单的多因素方差分析和协方差分析,不但可以分析各因素的主效应,还可以分析各因素间的交互效应。

Page 11: 第 9 章   方差分析

General Linear Model( 简称 GLM) 过程 在 General Linear Model菜单项下有四项:

Univariate :提供回归分析和一个因变量和一个或几个因素变量的方差分析。 Multivariate: 可进行多因变量的多因素分析 Repeated Measure: 可进行重复测量方差分析 Variance Component :可进行方差成分分析。通过计算方差估计值,可以帮助我们分析如何减小方差。

Page 12: 第 9 章   方差分析

9. 2 单因素方差分析也称有一维方差分析,对二组以上的均值加以比较。检验由单一因素影响的一个(或几个相互独立的)分析变量由因素各水平分组的均值之间的差异是否有统计意义。并可以进行两两组间均值的比较,称作组间均值的多重比较,还可以对该因素的若干水平分组中哪些组均值不具有显著性差异进行分析,即一致性子集检验。One-Way ANOVA 过程要求: 因(分析)变量属于正态分布总体,若因(分析)变量的分布明显的是非正态,应该用非参数分析过程。 对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用 Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。

Page 13: 第 9 章   方差分析

9. 2 .1 简单的一维方差分析使用系统默认值进行一维方差分析: P151 比较四种饲料对猪体重增加的作用有无不同(注意:分组变量的定义) data09-01 Analyze->Compare Means->One-Way ANOVA

Dependent List : weight Factor: fodder 结果只有方差分析表 结果中比较有用的值: Sig 显著性概率值。 结论:四种饲料对猪体重增加的作用有显著性差异。

零假设 H0 :组间均值无显著性差异(即四种饲料对猪体重增加的平均值无显著性差异);

Page 14: 第 9 章   方差分析

9. 2 .2--9. 2 .3 单因素方差分析的选择项和例子使用选择项的单因素方差分析: P155 比较四种饲料对猪体重增加的作用 data09-01 Analyze->Compare Means->One-Way ANOVA

Dependent List : weight Factor: fodder Contrasts 选项 : 多项式比较( AD与 BC比较和 AC与 BD比较) Post Hoc选项 : 均值多重比较 LSD和 Tamhane’s T2 ,一致性子集检验 Duncan (各种方法的使用条件-方差齐或不齐) Options 选项 :Descriptive描述统计量, Homogeneity-of-variance 方差齐次性检验, Means plot 均值分布图 结果除了方差分析表,还有很多选项相应的结果 结论:四种饲料对猪体重增加的作用有显著性差异,还可得知 ABCD四种饲料对猪平均体重增加多少(越来越多)。

P159 同种三叶草被接种上不同的菌种,其含氮量情况 data09-02 (注意 Post Hoc 各种方法结果的使用条件-方差齐或不齐) .

Page 15: 第 9 章   方差分析

9.3 单因变量多因素方差分析过程(多因素, 2 )1 、单因变量多因素方差分析概述2 、单因变量多因素方差分析的菜单和选择项3 、使用系统默认值进行随机区组设计资料的方差分析4 、 2×2 析因实验方差分析实例5 、拉丁方区组设计的方差分析实例6 、协方差分析实例7 、多维交互效应方差分析实例

Page 16: 第 9 章   方差分析

9.3.1 单因变量多因素方差分析概述1 、概述

是对一个独立变量是否受多个因素或变量影响而进行的方差分析。 SPSS调用 UNIANOVA 过程,检验不同水平组合之间因(分析)变量均值由于受不同因素影响是否有差异的问题。 UNIANOVA 过程可以分析每一个因素的作用(主效应),也可以分析因素之间的交互作用(交互效应)。可以进行协方差分析,以及各因素变量与协变量之间的交互作用。 UNIANOVA 过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差相同,也可以通过方差齐次性检验选择均值比较结果。 因变量和协变量必须是数值型变量,协变量与因变量彼此不独立。因素变量是分类变量,可以是数值型和字符型。 固定因素变量( Fixed Factor)是反应处理的因素。随机因素是随机设置的因素,是在确定模型时需要考虑会对实验有影响的因素,对实验结果影响的大小可以通过方差成分分析确定。2 、关于模型: GLM Univariate功能很强,可以建立包括各种主效应、交互效应的模型。必须认真分析因素变量的具体情况,来确定自己的模型,否则会产生不可解释的输出结果。

Page 17: 第 9 章   方差分析

9.3.2 单因变量多因素方差分析的菜单和选择项菜单: Analyze->General Linear Model-> Univariate 选项:

选择分析模型 Model: 默认全模型 Full Factorial :包括所有因素变量的主效应、所有协变量的主效应、所有因素与因素的交互效应,不包括协变量与其他因素的交互效应。 自定义模型 Custom :主效应( Main effects 及其因素变量)、交互变量(有交互效应维数之分) 选择分解平方和的方法(默认为 TYPE III) Include Intercept in model :系统默认截距包括在回归模型中。

选择对照方法 Contrasts 选择分布图形 Plots 选择多重比较分析 Post Hoc 保存运算结果的选择项 Save 选择输出项Options

Page 18: 第 9 章   方差分析

9.3.3 使用系统默认值进行随机区组设计资料的方差分析P168 比较不同种系、剂量的雌性大白鼠子宫重量,看不同种系、不同剂量对雌性大白鼠子宫重量是否有显著性作用 data09-03 Analyze->General Linear Model-> Univariate

Dependent : wuteri Fixed Factor( s): mouse 、 etrogen Model选项 : Custom(Main effect, mouse 和 etrogen) 主效应方差分析检验结果 (截距,主效应,误差 Error) 结果中比较有用的值: Sig 显著性概率值(各自主效应,截距 - 线性回归关系) 结论:不同种系、不同剂量对雌性大白鼠子宫重量均有有显著性作用。

注意:选择只有主效应,原因是每种组合只有一个观测量。如果分析交互作用,无法计算差异的显著性

Page 19: 第 9 章   方差分析

9.3.4 析因实验方差分析概念多因素析因实验的方差分析:析因实验是把各因素的各水平的全部组合排列出来,然后按每个条件的组合作一次或多次重复的实验,所得的全部数据个数 n=a*b*...*k,其中 a, b , ... 为各因素的水平数, k为每种组合内的重复数。析因分析的好处在于对各因素间的交互影响项的方差都可以加以析离并检验其显著性。

Page 20: 第 9 章   方差分析

9.3.4 2×2 析因实验方差分析实例两因素、两水平的实验设计。例子: P171 使用两种药物 A ( 0- 不用, 1- 用)和 B ( 0- 不用,1- 用)治疗缺铁性贫血( 2*2=4 种组合,每种组合有 3 个病人),看 A 、 B 、 AB 的作用 data09-04 Analyze->General Linear Model-> Univariate

Dependent : redcell Fixed Factors: drugA 、 drugB 保留全模型选项(不对 Model操作) 选择 Plot选项: 作三个图 drugA 、 drugB 、 drugA*drugB 选择输出Option选项:选 drugA 、 drugB 、 drugA*drugB 、 Overall 进入Display Means for 框中 结果除了方差分析表( (截距、主效应、交叉效应、误差 Error),还有很多选项相应的结果 结论 p173 :两种药物 A 和 B 均对治疗缺铁性贫血有显著疗效,两种药物 A 和 B 的协同作用也很显著。

Page 21: 第 9 章   方差分析

9.3.5 拉丁方区组设计的方差分析实例拉丁方实验设计的特点 : 有两个以上因素变量 , 每个因素变量的水平数相等。例子: P174 为了评价六种不同甜菜,选择地块土壤条件相同,将六种甜菜(变量 variety) 种子播种在六行(变量 rep )、六列(变量 Col )的地块上,记录两次收获(变量 Harvest )的产量(变量 yield ) data09-05 ( 3 因素 6*6拉丁方, n=6*6*2= 72 Cases)实验的假设是:不同地块(行、列)对产量均值无影响,不同种子产量均值无影响

Analyze->General Linear Model-> Univariate Dependent : yield Fixed Factors: rep 、 col 、 variety Model :只分析三个主效应 rep 、 col 、 variety( Main effects) 主效应方差分析检验结果 (截距,主效应,误差 Error) 结果中比较有用的值: Sig 显著性概率值(各自主效应,不同品种的甜菜variety 有显著性差异,即平均产量的差异主要是品种不同造成的,而跟地块无关)

Page 22: 第 9 章   方差分析

9.3.6 协方差分析实例协方差分析是利用线性回归方法消除混杂因素的影响后进行的方差分析。例子: P176 镉作业工人按暴露于镉烟尘的年数大于等于 10 年和不足 10 年两组。两组工人的年龄未经控制(人随着年龄的增长,肺活量也会有所下降),测量了每个工人的肺活量。课题研究暴露于镉粉尘的年数和肺活量的关系 ( 要消除年龄的影响 ) , Data09-06 , Time接触镉粉尘时间分组( 1 为 >=10 年, 2为 <10 年 ) , AGE年龄, Vitalcp肺活量

Analyze->General Linear Model-> Univariate Dependent : Vitalcp Fixed Factors: time Covariate : Age Option : Display Means For:time (分 Time显示肺活量均值) Display :Parameter Estimates(肺活量与年龄的线性回归方程,分 time ) 结果中比较有用的值: Sig 显著性概率值(各主效应,年龄 Age 有显著性差异, TIME无显著性差异,即肺活量的差异是由于被试者的年龄差异所致,与被试者接触镉粉尘时间的时间是否大于 10 年无关)

Page 23: 第 9 章   方差分析

9.3.7 多维交互效应方差分析实例p178实验数据为教育心理学实验,心理运动测验分数与被试者必须瞄准的目标大小关系的资料 Data09-07

四个大小不同的目标: Target 三部测验设备: Device 两种不同明暗程度的照明环境: Light 4×3×2 的析因实验设计( 24 个组合单元,每组 5 个 Cases,共 24×5= 120Cases)Analyze->General Linear Model-> Univariate

Dependent : Score Fixed Factors: Target 、 Device 、 Light Model :保留全模型选项(不对 Model操作) 选择输出Option选项:选 Target*Device* Light 进入Display Means for 框中:各种组合均值 选择 Plot选项: 作四个图 Target 、 Device 、 Light 、 Target*Device* Light 结果中比较有用的值: Sig 显著性概率值(各主效应,交互效应,均对Score 有显著性作用)

Page 24: 第 9 章   方差分析

9.4 多因变量线性模型的方差分析 P181概述 : GLM Multivariate 过程提供回归分析和多因变量的方差分析。多因变量方差分析模型除包括多个因变量外,还可以包括一个或几个因素变量或协变量。因素变量把总体分为几个组。使用这个一般线性模型过程,可以检验因素变量在因变量的联合分布的各组均值的效应,可以研究因素间的交互效应和单一因素的效应,另外还包括协变量效应和协变量与因素间的交互效应。对回归分析,协变量作为自变量(预测变量)GLM Multivariate 过程可以检验平衡和不平衡模型。模型中每个单元包括相同数量的观测量为平衡设计。

Page 25: 第 9 章   方差分析

9.4.3 多因变量线性模型方差分析实例实例:数据是对男 33 人、女 26 人的头部四个解剖部位的测量结果,研究男女头部有无显著性差异。 Data09-08菜单: Analyze->General Linear Model-> Multivariate

Dependent : Basilar、 length、 postorb 、 zygoma Fixed Factors: Sex Model :保留全模型选项(不对 Model操作) Option : Descriptive Statistics 结果中比较有用的值: Sig 显著性概率值(不同性别的头部四个解剖部位没有显著性差异)

Page 26: 第 9 章   方差分析

9.5 重复测量设计的方差分析概述 P187: 重复测量设计方差分析的样本必须包括同质的实验单位或进行多次重复测量的实验。GLM 重复测量属于高级分析过程,是对同一因变量进行重复测量,可以是同一条件下进行的重复测度,目的在于研究各种处理之间是否存在显著性差异的同时,研究被试着之间的差异;也可以是不同条件下的重复测度,目的在于研究各种处理间是否存在显著性差异的同时,研究形成重复测量条件间的差异以及这些条件与处理间的交互效应。重复测量设计方差分析的数据文件结构:若干次重复测量结果作为不同因变量出现在数据文件中。

Page 27: 第 9 章   方差分析

9.5 重复测量方差分析实例 1P188实例 1-Data09-09 :设置了三个级别的视觉刺激作为处理因素变量 vsno(视觉刺激等级 1 、 2 、 3) , 4位被试者均接受三个级别的视觉刺激,并在同样条件下测试三次 (time1,time2,time3) 。 H0 :三个级别的视觉刺激之间(被试者内)无显著性差异。菜单: Analyze->General Linear Model-> Repeated Measure

Within-Subject Factor Name:time Nuber of Levels:3 Define:

Within-Subjects Variables [time]:time1,time2,time3 Between-Subject Factor:vsno

结果中比较有用的值: Sig 显著性概率值(三次测量之间没有显著性差异, 4位被试者之间对每种相同视觉刺激的反映也没有显著性差异,而对不同的视觉刺激等级有显著性差异)

Page 28: 第 9 章   方差分析

9.5.4 重复测量方差分析实例 2P191 实例 -Data09-10a :研究四种药物对某生化指标的作用( med1, med2, med3, med4 ) , 5位被试者参与实验,零假设 H0 :四种药物对某生化指标作用之间(被试者内)无显著性差异。菜单: Analyze->General Linear Model-> Repeated Measure

Within-Subject Factor Name:med Nuber of Levels:4 Define:

Within-Subjects Variables [med]:med1-med4 Option: Display Means for: Med Display: Descriptive Statistics

结果中比较有用的值: Sig 显著性概率值(四种药物对某生化指标作用之间有显著性差异,而 5位被试者之间对每种相同药物的反映也有显著性差异)

Page 29: 第 9 章   方差分析

9.5.5 关于趋势分析P194 概念:当重复测量的条件是某些顺序变量时,可以分析重复测量的因变量随顺序变量变化的趋势。实例 -Data09-11 :选择 16名实验对象 (no) ,使用两种方法 (group)锻炼他们的记忆力。训练一段时间后,每隔一天测试一次记忆情况,共测试 5次。每次测试对每个参与实验的人员均按一定的法则打分 (day1-day5) 。这是一个组内因素、一个组间因素的重复测量设计的例题。因为组内因素是与时间有关的变量,因此不但可以分析比较两种训练记忆的方法哪个更有效,还可以得到随时间的推移,记忆分数随时间下降的数学模型(线性关系Linear、二次关系Quadratic 、三次关系Cubic )。菜单: Analyze->General Linear Model-> Repeated Measure

Within-Subject Factor Name:days (Nuber of Levels:5) Define:

Within-Subjects Variables [days]:day1- day5 Between-Subject Factor:group Model : Main effects( days, Group ) Plots: Days*Group Option: Display Means for: Days,group,overall Display: Descriptive Statistics和 Estimate of effect size

结果中比较有用的值: Sig 显著性概率值(多元、组内、趋势分析)和趋势图( Days*group 的 Plot图)

Page 30: 第 9 章   方差分析

9.6 方差成分分析概述 P198: 是对混合效应模型中各随机效应对因变量变异的贡献进行分析。菜单: Analyze->General Linear Model-> Variance Components 定义因变量和随机因素 选分析模型 Model : Full Model 或 Custom 选分析方法 Option :四选一

MINQUE正态最小二次无偏估计,默认方法 ANOVA ( Analysis of Variance) Maximum likelihood ( ML)最大似然法 Restricted maximum likelihood ( REML)有限最大似然法

Page 31: 第 9 章   方差分析

9.6.2 方差成分分析实例p200 实例 Data09-07 :教育心理学实验,心理运动测验分数与被试者必须瞄准的目标大小关系的资料

四个大小不同的目标: Target 三部测验设备: Device 两种不同明暗程度的照明环境: Light 4×3×2 的析因实验设计( 24 个组合单元,每组 5 个 Cases,共 120Cases)菜单: Analyze->General Linear Model-> Variance Components

Dependent : Score Fixed Factors: Target 、 Device Random Factor: Light Model :保留全模型选项(不对 Model操作) Option : Method ( ANOVA )、 Sum of Square ( type III)、 Display( Sum of Square ) 结果中比较有用的值:方差成分估计表( Variance Estimates中的 Estimates,看其大小,说明方差最大来源与亮度、目标、设备的交互效应。亮度因素是不可忽视的,亮度应该在测试中作为测试条件考虑)

Page 32: 第 9 章   方差分析

9.7 正交实验设计功能 203: 进行实验之前,要进行实验设计,以保证用最少的人力物力和时间取得好的实验效果。菜单: Data->Orthogonal Design ->Generate生成正交主效应设计(不属于 typical安装)实例 P205 :要求生成 4 因素 3 水平 9次实验的正交实验设计表

Page 33: 第 9 章   方差分析

练习题(对银行数据进行方差分析)提示:如果单因素只有两个水平的字符变量,请用第八章的 T检验)1. 不同性别的收入是否不同?( 8.4独立样本 T检验)2. 是否少数民族的收入是否不同?( 8.4独立样本 T检验或 9.2单因素方差分析)3. 不同工种的收入是否不同? ( 9.2 单因素方差分析)4. 不同性别和工种的收入是否不同? (9.3 单因变量多因素方差分析)5. 是否少数民族和工种的收入是否不同? (9.3 单因变量多因素方差分析)6. 不同工种的收入是否不同(消除是否少数民族的影响)? ( 9.3.6 协方差分析)7. 不同工种的收入是否不同(消除性别的影响 - 性别要重新编码成数值)? ( 9.3.6 协方差分析)8. 不同性别的起始工资和现在工资是否不同( 9.5 重复测量设计的方差分析)