方差分析

ANOVA
biostatistics
anova
Author
Published

Saturday, February 15, 2020

方差分析

t检验和u检验不适用于多个样本均数的比较,而用方差分析比较多个样本均数,可以有效地控制I类错误。

方差分析(analysis of variance,ANOVA)由英国统计学家R.A.Fisher首先提出,以F命名其统计量,故方差分析又称F检验。

方差分析的基本思想是根据研究的目的和设计类型,将总变异的离均差平方和SS及其自由度v分别分解成相应的若干部分,然后求各相应部分的变异(数理统计证明,总的离均差平方和等于各部分离均差平方和之和);再用各部分的变异与组内(或误差)变异进行比较,得出统计量F值;最后根据F值的大小确定p值,作出统计推断。

方差分析的用途很广,包括两个或多个样本均数间的比较,分析两个或多个因素间的交互作用,回归方程的线性假设检验,多元线性回归分析中偏回归系数的假设检验,两样本的方差齐性检验等。

方差分析的应用条件为:各样本需是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐性。

方差分析基本术语

实验设计和方差分析都有自己相应的语言。

以研究某药物对某癌细胞株增殖影响的研究为例,现有两种药物:新研究药物(Treatdrug)和对照组药物(Controldrug)。

我们提取培养10个某癌细胞株作为研究对象,随机分配一半癌细胞株接受为期96h的Treatdrug治疗,另一半接受为期96h的Controldrug治疗。研究结束时,对两组细胞株的细胞抑制率进行评估。

在这个实验设计中,治疗方案是两水平(Treatdrug和Controldrug)的组间因子,之所以称作组间因子是因为每个患者都仅被分配到一个组别中,没有患者同时接受Treatdrug和Controldrug。

细胞抑制率是因变量,治疗方案是自变量。由于在每种治疗方案下观测数相等,因此这种设计也称为均衡设计;若观测数不同,则称为非均衡设计。

因为仅有一个类别型变量,这种设计又称为单因子方差分析或进一步称为单因子组间方差分析。

方差分析主要是通过F检验来进行效果评测,若治疗方案的F检验显著,则说明96h后两种药物的细胞抑制率均值不同。

假设只对Treatdrug的效果感兴趣,则需要将10个癌细胞株都放在Treatdrug组中,然后在治疗24h和96h后分别评估疗效。此时,时间是两水平(24h和96h)的组内因子,因为每个癌细胞株在时间的所有水平下都进行了测量,因此这种设计称为单因子组内方差分析;又由于每个癌细胞株都不止一次被测量,也称作重复测量方差分析。若时间的F检验显著,则说明细胞抑制率在24h和96h间发生了改变。

现假设对治疗方案差异和它随时间的改变都感兴趣,则可以将两个设计结合起来:随机分配一半癌细胞株到Treatdrug组,另一半到Controldrug组,在24h和96h分别评估它们的细胞抑制率。治疗方案和时间都作为因子时,既可以分析治疗方案的影响和时间的影响,也可以分析治疗方案和时间的交互作用。前两个为主效应,交互部分为交互效应。在这种情况下,需要进行3次F检验,治疗方案因素1次,时间因素1次,两者的交互因素1次。若治疗方案显著,说明Treatdrug和Controldrug对癌细胞的抑制效果不同;若时间显著,表明细胞抑制率在24h和96h间发生了改变;若两种因素交互效应显著,说明两种药物随着时间变化对癌细胞的一直效果不同(即细胞抑制率从24h到96h的改变程度在Treatdrug和Controldrug之间是不同的)。

当设计中包含两个甚至更多因子时,便是多因子方差分析设计。两个因子时称为双因子方差分析,三因子时称为三因子方差分析。若因子设计包括组内因子和组间因子,又称为混合模型方差分析。

这里,即使不同的癌细胞株被随机分配到不同的治疗方案中,但在研究开始时两组癌细胞株的增殖速度可能不同,治疗后的差异可能是最初的增殖速度不同导致的,而不是实验方案的影响。增殖速度也可以解释因变量的组间差异,因此它常被称为混杂因素。如果我们在评测治疗方案类型的影响前,对组建的统计学差异进行统计性调整,将初始增殖速度作为协变量,这样的设计称为协方差分析。

当因变量不止一个时,该设计被称为多元方差分析,若还存在协变量,则称为多元协方差分析。