论文部分内容阅读
试验是人类从事的最普遍的活动之一,从原始的农作物种植试验,到如今的新材料、新医药、生物技术试验,试验一直是人类认识自然、了解世界的重要手段。为了能获得准确的试验数据,同时最大限度地降低试验的成本,需要在试验前进行科学的设计。试验设计就是研究如何科学地安排试验,获取数据并做出合理分析的一门学科。作为统计学的一个重要分支,试验设计在处理比较、变量筛选、响应曲面探查、质量控制等方面发挥着越来越重要的作用。尤其对于客观世界中大量存在的多因素、多水平综合作用下问题的分析,科学合理地设计方案显得尤为重要。在试验中,通常对每个影响因素,即试验因子设置多个水平,因子间不同水平的一个组合称为一个处理,若干处理组成的集合即为一次试验,其中包含全部处理组合的试验称为完全试验。而由于完全试验的规模会随着试验因子个数及其水平数的增加而急剧增长,因此实际中通常只选取其中一部分进行,即部分试验。部分试验的设计问题始终是试验设计的一个重点研究内容。自二十世纪初,Fisher创立试验设计学科以来,出现了众多选取部分试验的最优设计准则,其中应用较多、研究较为深入的典型设计准则有最大分辨度准则、最小低阶混杂准则、最大估计容量准则、纯净效应准则、一般最小低级混杂准则等。这些研究都是以效应层级原则为出发点,优先保证低阶效应,主要是主效应和两两间的二阶交互效应的可估性。在模型未知的情况下,一个好的设计可以为试验者提供更多可选的稳健模型。这里的模型稳健是指模型中的主效应和二阶交互效应及二阶交互效应间具有最轻的混杂情况。其中最大估计容量准则是从充分保证模型多样性角度,选择可估模型数量最大化的设计;其余几种典型最优设计准则则是首先考察部分设计自身的混杂特点,从中提取相应信息,建立了字长型(Word Lenghth Pattern,简记为WLP)和被混杂效应数模型(Aliased Effect Number Pattern,简记为AENP),据此选择最优设计。而AENP更细致地提取了设计中所含有的混杂信息,进而允许试验者可以结合已有的一些先验信息更加合理地安排试验。本文的着眼点之一是在效应层级原则下,借助AENP,提出模型质量的概念,并将模型进行分类,按照模型质量从高到低的顺序,依次找到每类模型可估的最大数量,并以此作为设计间比较优劣的依据,论证了GMC设计具有最佳稳健性。本文的另一个着眼点是设计对模型的辨识度。以往的最优设计准则大多仅关注可估模型数量最大化而不考虑模型间的差异大小的问题,本论文从模型空间的角度重点研究了两水平正规部分因析设计的辨识度问题。论文的研究工作主要创新点包含以下方面内容:(1)针对两水平部分因析设计中,不同混杂度的二阶交互效应会对模型的估计、预测造成不同程度影响的论断,提出了模型质量的概念,用以描述设计的稳健性。借助AENP中给出的各阶效应间的混杂信息,并结合模型中所含有的二阶交互效应数量,将模型进行了分类,给出了每个类型中所含有的可估模型的数量的上界。(2)在根据模型质量对模型进行分类基础上,根据一个部分因析设计所能提供的不同类质量的模型数量的大小,建立了一种新的统计模型——稳健模型数模型(RMNP)。基于这一模型,根据效应层级原则,提出了一种新的最优设计准则——最佳模型稳健性设计准则,并将达到最佳稳健性的部分因析设计命名为最佳稳健性设计。(3)在Zhang et al.[85]最优设计研究基础上,给出了16-run和32-run的GMC和MEC设计的最佳稳健性模型计算公式中的关键参数{|Gi|,i=0,1,…,-1}的对比计算结果以及16-run、32-run、64-run的GMC设计和MA设计的各类不同混杂度下可估的二阶交互效应的个数,并加以对比。(4)建立了利用计算机仿真模拟的方法,直接论证了含有高阶混杂度的二阶交互效应比含有低阶混杂度的二阶交互效应的模型造成更大的估计偏差的论断,同时也说明了模型质量提出的必要性。(5)在关注可估模型数量最大化的同时,研究了这些可估模型间的差异问题,即设计对模型的辨识度问题。从度量两个模型阵张成空间差异入手,建立了六种评价设计对模型的辨识度的最优准则,并将其应用于两水平正规部分因析设计中,找到其中的一些规律。(6)利用MATLAB软件计算了全部16-run、32-run以及64-run的非同构的两水平正规部分因析设计下含有一个和两个二阶交互效应情况时六种最优辨识度准则下的值,进而找到相应的最优设计,并与GMC最优设计和MA最优设计进行了对比。论文最后在总结全文的基础上对下一步的研究方向和内容进行了展望。