试验设计中的数据分析方法

来源 :南开大学 | 被引量 : 0次 | 上传用户:cofelinz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人们探索、研究和利用自然的一个重要途径是进行试验。通常在一个试验中,我们要考虑p个输入变量对输出变量的影响。在试验设计中输入变量常被称作因子,而输出变量被称作响应.另外我们称因子的设置为其水平。如果一个试验中包含p个因子F<,1>…,F<,p>,而这p个因子的水平分别为s<,1>…,s<,p>(≥2),则称其为s<,1>×…×s<,p>的因析试验,特别的如果s<,1>=…=s<,p>=s,则称其为一个对称的s

因析试验,否则即为一个非对称因析试验。这p个因子的任一水平组合被称为一个处理组合。 如果一个试验中包含有所有可能的处理组合,则称这个试验为完全因析试验。然而一般情况下,试验者负担不起一个完全因析设计,尤其是当因子个数较多的时候,所以往往从所有处理组合中取出一部分来安排试验,这一部分即是一个部分因析试验设计。如果一个部分因析设计能够由定义关系得到,则称之为正规的,否则称为非正规的。 为了能够对因子效应进行有效的统计推断,试验者首先应该选择一个好的部分因析设计。很多文章都致力于寻找一个最优性准则,并在相应的准则下构造出最优设计.例如,对正规的部分因析设计,最常用的有最大分辨度准则,最小低阶混杂准则,纯净效应准则和最大估计能力准则等等。寻找一个好的设计和进行数据分析是试验设计的两个重要方面。 在工业试验设计和分析的初级阶段,筛选因子具有非常重要的作用。由于客观条件的约束,可作试验的次数受到限制。在这种情况下,非正规设计、饱和设计、超饱和设计常常因为其试验次数节俭而被采用.文献中对这一类筛选设计的构造问题有很多的讨论,在相应准则下最优的设计大多有表可查,试验者在安排试验时可以方便的查出。这儿,我们只讨论数据分析方面的问题。 要对从筛选试验中收集来的数据进行分析,一个最基本的原则,就是效应稀疏性的假定,即在考虑的效应中,只有少数几个是不为零的。通常在筛选试验中,试验者希望能考查的因子越多越好,但通常由于时间、物力和人力的限制,所能选择的试验次数并不太多。所以,一般情况下筛选试验中每个处理组合只进行一次,没有重复,这样也就没有剩余的自由度去估计误差项的方差,比如,当这种筛选试验安排成饱和设计时,恰有足够的观测来估计所有的效应,而不再有自由度来估计误差项的方差,因而,对于适用于有重复试验的标准数据分析方法,比如方差分析,置信区间和基于t-分布的假设试验,不再适用。然而,如果效应稀疏性假设成立,即便是使用饱和或超饱和设计,有效的数据分析方法也会使得那些显著因子效应的估计仍然会比较大,以致于可以识别出真正活跃的因子.因此对筛选设计的数据分析来说,效应稀疏性的假定是关键的一点。 在任何决策问题中,都必须考虑其代价,在各种错误中作个权衡。在筛选活跃因子时,可能会犯两种错误:一种是把惰性因子误认为活跃的(第一类错误),另一种是把活跃的效应认为是惰性的(第二类错误)。如果犯了第一类错误,结果是一个惰性因子包含在以后的研究中,占用资源;另一方面,如果犯了第二类错误,进一步的研究中将会漏掉一个重要的因子,这可能会导致整个研究的失败。一般而言,在筛选试验中第二类错误或者和第一类错误一样重要,或者要比第一类错误重要.当然,如果我们宣称所有的因子都是非零的,也就是不筛选任何因子,则可以避免犯第二类错误,但筛选试验的基本目标就不能实现了。所以在筛选设计的分析中,要寻找一种在探索大的效应时最优的数据分析方法,就必须在第一类和第二类错误中作个权衡。超饱和设计是部分因析设计的一种,在这类设计中,待估计的效应较试验次数要多。当试验中需要考查的因子数目较多,而进行一次试验又很昂贵的话,可以考虑使用超饱和设计。对于超饱和设计的构造问题,研究颇多。但这类设计的数据分析是个难题,因为困难不仅在于非正交性,还有不可估这个问题:如果所有感兴趣的效应均包含在模型中,这个模型的参数相对试验次数而言太多了,所以效应是不可估计的,文献中提出了一些办法来解决这个问题,这些方法基本上可以分为三类:一类是一般线性模型中适用的变量选择方法,或直接拿过来用(如逐步回归),或经过适当的修正后再用到该类设计中(如 Li and Lin(2002,2003)给出的SCAD方法、Lu andWu (2004)的逐步降维方法等等);第二类是适用于正规设计的正态图或半正态图方法(Daniel(1959));最后一类是Bayesian方法,如 Chipman et al.(1997)、Beattie et al.(2002)的SSVS/IBF、两步选择策略.逐步筛选的不足之处是其不稳定性,而正态或半正态图则有些主观,另外效应估计的非正交性也使得由此所的结果和实际有偏差,总之这些方法中有的不能很好的控制犯错误的概率,有的则难以理解.我们在第2 章介绍了一种新的方法- -PLSVS方法来筛选混水平超饱和设计的显著效应,这种方法是基于偏最小二乘回归给出的。在2.2节,我们给出这种可用于一般线性模型中的变量选择方法;我们在2.4节介绍了SSD的线性模型以及如何将PLSVS方法用到SSD中进行效应筛选.随机模拟的结果在2.4节中列出,本节中我们还把这种新的方法与已有的方法进行了比较。随机模拟的结果和一个例子的分析均显示这种方法是十分有效的。已有的方法都只是用在2-水平的超饱和设计中,而我们的PLSVS方法可用于2-水平、高水平以及混水平的超饱和设计中去筛选显著效应,并且这种方法易于理解和实现。 我们都知道,非正规的正交表在某些方面优于正规的部分因析设计,比如处理组合数目的灵活性,较高的估计能力等等。因此实际中变得越来越常用。有些情况下,由于试验单元的非齐次性可能会引起一些系统变差,而分区组则可以消除这些系统变差,进而提高试验的效率,所以有时候要求设计分区组。对分区组的正规设计的构造,讨论颇多,多种准则以及在相应准则下的最优设计大多可以从文献中查到,而分区组非正规设计的构造,讨论还不是很多,可以参考Cheng,Li and Ye(2004)和Ai andZhang(2004)。 对于分区组试验设计的数据分析,研究还比较少.Loeppky and Sitter(2002)将Loughin and Noble(1997)的排序方法及Lenth′s(1989)的方法推广到分区组的正规设计,但对于分区组非正规的设计,由于效应间存在部分别名和混杂,试验的数据分析变得更复杂。这种情况下,很多模型都是可估的,备选的变量(因子效应)经常比试验次数还要多,即使我们能估出所有效应(包括区组效应,处理因子主效应,处理因子二阶交互作用),效应的估计也可能是相关的,因此无法直接判断哪些显著。目前还没有文章讨论非正规分区组设计的模型选择问题,在第3章,我们讨论了这一问题。在3.2节,我们把PLSVS方法和效应遗传原则结合在一起,给出了一种可用于PB设计的效应筛选方法N-PLSVS。在3.3节,Hamada,and Wu(1992)提出的方法和N-PLSVS均被推广到分区组非正规的设计.在3.4节,我们分别对12个水平组合2个区组的设计和16个水平组合4个区组的设计进行了随机模拟,结果显示我们的方法是有效的。 若一个试验设计恰有足够的观测去估计主效应和感兴趣的两因子交互作用,这个设计是饱和的.对于正交饱和设计的数据分析,传统的方法是对所有效应的估计去画半正态图。其他的方法也较多.这方面的结果,可以参考Voss和Wang最近的文章.对于非正交的饱和设计,数据分析的方法是很少的,相反,这方面的发展也较慢,问题在于效应的估计是相关的.现存的方法或者是经验性的或者理论上存在明显的缺陷。Kunert(1997)提出了一种可以把相关的估计转换成不相关估计量的方法,这种到正交陛的变换共有p!种;然后可以用事先选定的一个变换或者这p!个变换中最优的那个来得到一个改进的方差估计,利用这个方差估计,他给出了一种数据分析方法但没能建立对犯错误概率的控制。Kinateder,Voss and Wang(2000)利用Kunert(1997)的方法得到每一个效应β<,i>(i=1…,p)的精确置信区间,但都必须先从依赖于i的(p-1)!种可能的变换中先验得选择一种,而这种选择可能会破坏效应稀疏性的假定。对其他方法的讨论,可参考Wang and Voss(2001b)。Wang(2006)给出了一种可识别出非正交饱和设计中所有的非零效应的假设检验方法。由于我们的PLSVS是针对超饱和设计提出的,故其可用于这种非正交的饱和设计.在第4章,我们用第2.2节提出的PLSVS方法来分析一个非正交的饱和设计的例子。 一些主要的结果将会在第5章给出,同时我们在这一章列出一些值得进一步研究的问题。

其他文献
本论文研究的内容主要有两个方面,第一个方面是在前人研究的基础上得到一个K-Carleson测度的一个新的积分和离散形式的刻画,然后将它应用到解析的QK和NK空间上,得到函数f∈QK以
本文主要讨论一类重要的数学物理问题,即双曲型波动问题.首先,我们利用均匀化和多尺度渐近展开法求解周期复合材料振荡系数双曲型波动问题.在假定振荡系数具有双尺度,且关于快尺度
图像修补是数字图像处理的重要内容,可用于被损坏的图像和视频修复、视频文字去除以及视频错误隐藏等,最近出现的图像修补方法主要是基于偏微分方程的图像处理方法。本文首先给