医学试验设计一个很重要的目的就是为了排除非处理因素的干扰影响,使试验误差的估计降到最低限度,从而可以准确地获得处理因素的试验效应。但在某些实际问题中,有些因素在目前还不能控制或难以控制。如在动物饲养试验中,各组动物所增加的平均体重不仅仅与各种饲料营养价值高低有关,还与各动物的进食量有关,甚至与各动物的初始体重等因素及其交互作用都有关系。如果直接进行方差分析,会因为混杂因素的影响而无法得出正确的结论。
协方差分析是将回归分析与方差分析结合起来使用的一种分析方法。在协方差分析中,先将定量的影响因素(即难以控制的混杂因素)看作自变量/协变量,建立因变量随自变量变化的回归方程,利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉,从而能够较合理地比较定性的影响因素处在不同水平下,经回归分析手段修正以后的因变量的总体均数之间是否有显著性的差别,这就是协方差分析的基本思想。
协方差分析用于比较一个变量Y在一个或几个因素不同水平上的差异,但Y在受这些因素影响的同时,还受到另一个变量X的影响,且X变量的取值难以人为控制,不能作为方差分析中的一个因素处理。此时如果X与Y之间可以建立回归关系,则可以用协方差分析的方法排除X对Y的影响,然后再用方差分析的方法对各因素水平的差异进行统计推断。在协方差分析中,我们称Y为因变量,X为协变量,即在方差分析中用来校正因变量的数值型变量。
也许有人会问随机因素的影响也是不能人为控制的,为什么不能把X作为一种随机因素处理呢?
这里的差异主要在于作为随机因素处理时,虽然每一水平的影响是不能人为控制的,但我们至少可以得到几个属于同一水平的重复,因此可以把它们分别用另一因素的不同水平处理,最后在方差分析时,我们才能排除这一随机因素的影响,对另一因素的各水平进行比较。
例如,当我们考虑动物窝别对增重的影响时,一般可把它当作随机因素处理。一方面是由于它不易数量化,另一方面是同一窝一般有几只动物,可分别接受另一因素不同水平的处理。如果我们考虑试验开始时动物初始体重的影响,这时一般的方法是选初始体重相同的动物作为一组,分别接受另一因素的不同水平处理,此时用方差分析没有问题。但显然,这种方法往往是很困难的,一般需要很大的样本。若可供试验的动物样本很少,初始体重又有明显差异,无法选出体重相当的动物,那就只好认为初始体重X与最终体重Y有回归关系,采用协方差分析的方法排除初始体重的影响,再来比较其他因素如饲料种类、数量对增重的影响。协方差分析既利用了回归分析的基本方法,又用到了方差分析的基本方法,这就是协方差分析的基本思想。
消除初始体重影响的另一种方法是对最终体重与初始体重的差值进行统计分析,这种方法与协方差分析的生物学意义是不同的。对差值进行分析的生物学假设是初始体重对以后的体重增量没有任何影响,而协方差分析则是假设体重增量中包含初始体重的影响(不仅仅是初始体重对最终体重的影响),这种影响的大小与初始体重成正比,如果这一比值为1,协方差分析与对差值进行方差分析是相同的。但如果比值不为1,它们的结果将是不同的。也就是说,协方差分析假设使初始体重不同的因素在以后的生长过程中也会发挥作用,而对差值进行方差分析则是假设这些因素以后不再发挥作用,这两种生物学假设是有很大区别的。
在学习中需要注意统计学知识背后的研究假设。由于协方差分析包含了对协变量影响是否存在及其大小等一系列统计检验与估计,它显然比对差值进行分析等方法有更广泛的适用范围,因此除非有明显的证据说明对差值进行分析的生物学假设是正确的,一般情况下还是应采用协方差分析方法。
在医学研究中,很多情况下都需要借助协方差分析来排除非处理因素的干扰,从而准确地估计处理因素的试验效应。如,评价3种药物治疗高脂血症的效果,寻求各方面自然条件基本相同的受试者是很困难的,但是把患者的年龄、体重指数、用药前的血脂水平等作为协变量进行协方差分析,就简单很多。同样,比较几种不同营养奶粉对婴幼儿体重增长的作用差异,把研究对象的性别、年龄、基线体重等混杂因子作为协变量进行协方差分析,则是非常有效的统计分析方法。
和方差分析一样,协方差分析也属于参数分析,因变量Y应当满足以下假设条件:
在效应因子的每一个水平上,因变量Y服从正态分布,且方差相等;
在效应因子的每一个水平上,因变量Y和协变量X呈线性关系,且斜率相同。