正交设计
析因设计的缺点是当因素个数较多时(3个因素以上),所需试验单位数、处理组数、试验次数和方差分析的计算量会剧增。减少多因素试验次数的有效方法是采用正交试验设计。
当析因设计要求的试验次数太多时,一个非常自然的想法就是从析因设计的全部水平组合中选择一部分有代表性的水平组合进行试验,因此就出现了分式析因设计。但是对于试验设计知识较少的实际工作者而言,选择适当的分式析因设计还是比较困难的,而正交试验设计是研究多因素多水平的又一种试验设计方法。
它是根据正交性从全部的试验组合中挑选出部分有代表性的水平组合进行试验,这些有代表性的水平组合具备均匀分散、齐整可比的特点。正交试验设计是分式析因设计的主要方法,高效、快速、经济。日本著名统计学家田口玄一将正交试验选择的水平组合列成表格,称为正交表。
例如做一个3因素3水平的试验,按全面试验要求,需进行333=27种水平组合的试验,且尚未考虑每一组合的重复数,而正交试验设计可以大大减少工作量。
正交设计在医学研究中的用途相当广泛,在具体的操作上,也比析因设计简单,可寻找疗效好的药物配方、医疗仪器多个参数的优化组合、医疗产品的生成工艺、生物体的培养条件等。
假定在一个农业试验中要考察3个小麦品种、3种不同的肥料和3种播种方式对小麦产量的影响,并假定有9个地力基本相同的试验小区。在这个问题中,有3个可能影响小麦产量的因子:品种、肥料和播种方式,每个因子有3个水平,如果要做完全试验,就需要333=27个小区,而实际上总共只有9个小区,显然,完全试验在当前的情况下行不通。
因此我们可退一步考虑,按照上述正交设计的想法,设计要求品种、肥料和播种方式中的任意两个的不同水平的搭配都出现一次,满足这种性质的试验设计就是正交试验。
下面给出正交设计的一般性陈述:考虑设计一个试验,安排m个因子,做n次试验,若它满足以下两个条件,则其为正交试验:
每一因子的不同水平在试验中出现相同的次数(均衡性);
任意两因子的不同水平组合在试验中出现相同的次数(正交性)。
就定义来说,等重复的完全试验显然满足上述两个条件,因此当然也是正交试验设计。但由于其要求的试验次数太多,所以实际上很难实施。我们通常所说的正交试验设计,是指既满足上述两条件,同时试验次数n又远远小于N的设计。
正交试验设计的方案可以用一张表来表示,这张表就被称为正交设计表。一般来说,正交设计表的第1行为表头,标明每列所代表的因子,最左一列标明试验的序号,由1到n。注意:试验的序号并不表示试验的时间先后顺序,先后顺序要按照随机化原则来安排。表中每列的数字代表相应因子的水平序号,每行的数字代表在相应试验中各因子的水平序号,有:
每列中不同数字出现的次数相同(试验的均衡性);
每两列中不同的数字组合出现的次数相同(试验的正交性)。
假定因子对响应变量的影响无交互效应(许多实际情况正是这样),正交试验的优点是在很少的试验次数(与全面试验相比)中,所得数据可以简便而有效地对因子效应进行参数估计和方差分析。
其方法可一般地归纳如下:
总均值的估计=试验数据的总平均值
某因子的某个主效应的估计=该因子的该主效应所出现的试验数据的平均值-总平均值
总平方和=(试验数据-总平均值)的平方和,自由度=n-1
某因子的主效应平方和=重复数*参数估计的平方和,自由度=水平数-1
残差平方和=总平方和-因子效应平方和的和,自由度=总平方和-因子效应自由度的和