第七章 方差分析
[本章提要]本章主要通过对试验结果进行分析,鉴别其各有关因素对试验结果影响的实例,介绍了单因素方差分析和双因素重复试验方差分析的基本方法与应用,最后简单讨论了双因素无重复试验的方差分析。 在科学试验和生产实践中,影响一事物的因素往往是很多的。例如,在化工生产中,有原料成分、原料剂量、催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员水平等因素。每一因素的改变都有可能影响产品的数量和质量,有的因素影响大些,有的小些。为了使生产过程稳定,达到优质、高产、低消耗、高效益,就需要找出对产品质量影响显著的那些因素。方差分析就是鉴别各因素效应的一种有效方法,它被广泛地应用于生产实践中。 在试验中,将要考察的指标称为试验指标。影响试验指标的条件称为因素。因素所处的状态,称为该因素的水平。如果在一项试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验。相应的方差分析称为单因素试验的方差分析和多因素试验的方差分析。 在方差分析方面,Excel 2000提供的分析工具有:单因素方差分析、双因素重复试验方差分析和双因素不重复试验方差分析。本章将通过实例,分别说明这三种方差分析的基本理论以及如何使用Excel 2000提供的方差分析工具来解决实际问题。
7.1 单因素方差分析 例如,将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效。下表列出了5种常用的抗生素注入到牛的体内时,抗生素与血浆蛋白质结合的百分比。现需要在显著性水平 =0.05下检验这些百分比的均值有无显著的差异。设各总体服从正态分布,且方差相同。
青霉素 |
四环素
|
链霉素
|
红霉素
|
氯霉素
|
29.6 |
27.3
|
5.8
|
21.6
|
29.2
|
24.3
|
32.6
|
6.2
|
17.4
|
32.8
|
28.5
|
30.8
|
11.0
|
18.3
|
25.0
|
32.0
|
34.8
|
8.3
|
19.0
|
24.2
| 在这里,试验的指标是抗生素与血浆蛋白质结合的百分比,抗生素为因素,不同的5种抗生素就是这个因素的五个不同的水平。假定除抗生素这一因素外,其余的一切条件都相同。这就是单因素试验。试验的目的是要考察这些抗生素与血浆蛋白质结合的百分比的均值有无显著的差异。即考察抗生素这一因素对这些百分比有无显著影响。这就是一个典型的单因素试验的方差分析问题。
7.1.1 单因素方差分析的基本理论 与通常的统计推断问题一样,方差分析的任务也是先根据实际情况提出原假设H0与备择假设H1,然后寻找适当的检验统计量进行假设检验。本节将借用上面的实例来讨论单因素试验的方差分析问题。 1. 提出假设 在上例中,因素A(即抗生素)有s(=5)个水平 ,在每一个水平 (j=1,2,…,s)下进行了 = 4次独立试验,得到如上表所示的结果。这些结果是一个随机变量。表中的数据可以看成来自s个不同总体(每个水平对应一个总体)的样本值,将各个总体的均值依次记为 ,则按题意需检验假设 : : 不全相等 为了便于讨论,现在引入总平均 其中 再引入水平 的效应 显然有 , 表示水平 下的总体平均值与总平均的差异。 利用这些记号,本例的假设就等价于假设 : : 不全为零 因此,单因素方差分析的任务就是检验s个总体的均值 是否相等,也就等价于检验各水平 的效应 是否都等于零。 2. 检验所需的统计量 假设各总体服从正态分布,且方差相同,即假定各个水平 (j=1,2,…,s)下的样本 来自正态总体 , 与 未知,且设不同水平 下的样本之间相互独立,则单因素方差分析所需的检验统计量可以从总平方和的分解导出来。下面先引入:
水平 下的样本平均值
数据的总平均
总平方和 总平方和 反映了全部试验数据之间的差异,因此 又称为总变差。将其分解为 其中 上述 的各项 表示了在水平 下,样本观察值与样本均值的差异,这是由随机误差所引起的,因此 叫做误差平方和。 的各项 表示了在水平 下的样本平均值与数据总平均的差异,这是由水平 以及随机误差所引起的,因此 叫做因素A的效应平方和。 可以证明 与 相互独立,且当 : 为真时, 与 分别服从自由度为 的 分布,即 于是,当 : 为真时 这就是单因素方差分析所需的服从F分布的检验统计量。 3. 假设检验的拒绝域 通过上面的分析可得,在显著性水平 下,本检验问题的拒绝域为 为了方便分析比较,通常将上述分析结果编排成如下表所示的方差分析表。表中的 , 分别称为 的均方。
方差来源 |
平方和
|
自由度
|
均方
|
F 比 |
因素A |
|
|
|
|
误 差 |
|
|
|
|
总 和 |
|
|
|
|
7.1.2 单因素方差分析的基本操作 从上面的分析可以看出,如果用手工完成单因素试验方差分析,需要进行大量的计算。借助于Excel 2000的单因素方差分析工具,可以方便地自动完成。具体操作步骤如下: 选择工具菜单中的数据分析命令,此时弹出数据分析对话框。 在分析工具列表框中,选方差分析:单因素方差分析工具。 这时将弹出方差分析:单因素方差分析对话框,如图7-1中间所示。  图7-1 在输入框中指定输入参数。在输入区域框中指定试验数据所在区域A1:E5;在分组方式中选定列单选钮;选中标志位于第一行复选框;在 框内输入显著性水平0.05。 在输出选项框内指定输出选项。本例选定输出区域,并键入输出区域左上角单元格地址A7。 单击确定按钮。 即可得到单因素方差分析的结果,如图7-2所示。 在图7-2给出的统计结果中,单元格区域A18:E23中的数据正好与表7-1所列出的单因素试验方差分析表中的各个统计量相对应,其中组间即为因素A,组内即为误差,总计即为总和,差异源即为方差来源,SS即为平方和,df即为自由度,MS即为均方,F即为F比,P-value为接受原假设 的概率(此值越接近0,说明接受原假设的可能性就越小,反之亦然),F crit为拒绝域的临界值 。 根据图7-2给出的方差分析结果知 =40.885> =3.055568,故在显著性水平0.05下拒绝原假设 ,认为各抗生素与血浆蛋白质结合的百分比的均值有显著的差异,即各抗生素对这些百分比有显著影响。  图7-2 |