论文部分内容阅读
在科技水平高度发达的今天,试验几乎无处不在地作为一个工具来研究复杂的过程和系统。一个试验包含有两个方面:设计和分析。前者的基本思想是通过合理的选择控制变量的取值从而使得后者的有效性得到改进;而后者通常指的是统计推断,比如建模、变量选择、估计、预测以及最优化等。试验又可以分为两大类:实体试验和计算机试验。实体试验是在实验室、工厂或者农田里进行的,在实体试验中试验者亲自动手参与试验。相比之下,计算机试验是通过复杂的计算机代码来实施的。本学位论文的主要关注点之一的是某些复杂计算机试验的设计与分析,包括以下三个方面:1.设计需要分成若干片的计算机试验的设计;2.同时含有定性定量因子的计算机试验的设计与分析;3.当响应曲面存在明显趋势时计算机试验的变量选择问题。这些计算机试验是最近几年才发展起来的,已有部分研究成果但仍有许多值得研究的地方。我们将针对上述三方面展开研究。本文的另一关注点是超饱和设计(一种重要的因子筛选试验的设计)的变量选择问题。下面我们简要描述下本文的选题背景。随着计算技术和数值方法的发展,计算机试验被越来越广泛地用于模拟真实的实体系统。拉丁超立方体设计(Mckay, Conover and Beckman,1979)是计算机试验中最流行的设计之一(Santner, Williams and Notz,2003; Fang, Li and Sudjianto,2005).随着所研究的系统变得越来越复杂,为了满足特殊的需求,文献中对拉丁超立方体设计做了许多改进。由Qian (2012)提出的分片拉丁超立方体设计就是拉丁超立方体设计的变体之一。这类设计是受最近涌现出的一些复杂的计算机试验问题而启发的,例如,分批进行计算机试验、计算机模型的集成、含有定性定量因子的计算机试验、交叉验证以及数据汇集。尽管如此,这种设计列之间可能存在的高度相关性使得接下来的数据分析变得难以处理。因此构造列之间零相关或者低相关的分片拉丁超立方体设计是很有必要的。含有定性定量因子的计算机试验是分片拉丁超立方体设计最重要的应用之一。从模型角度来讲,高斯过程模型是目前最常用的模型(Santner, Williams and Notz,2003)。对于含有定性定量因子的计算机试验来说,建立高斯过程模型的关键是对定性因子的相关结构建模(见Qian, Wu and Wu,2008; Zhou, Qian and Zhou,2011).尽管如此,Han et al.(2010)以及本文的工作揭示了当预测定性因子的某个水平组合下的响应时,并不是其他水平组合下的所有响应都是有用的。这是因为某些响应之间可能是弱相关的因而它们之间的信息不应该用来建模。如何过滤掉这些无用的信息很值得研究。传统上,应用于计算机试验里的高斯过程模型要么使用一个常数作为均值函数要么使用一些预先设定的变量作为均值函数。然而大量的事实证明在强趋势存在的情形下这两种模型的精度都不甚理想(参见Joseph, Hung and Sudjianto,2008; Hung,2011)。选择一个合理的均值函数对建立一个精确的高斯过程模型至关重要。这是一个相当新的研究课题且目前只有极少的工作关注此问题。超饱和设计指的是试验次数不足以估计主效应的设计。这样的设计在筛选试验中是非常有用的。在过去的20多年中,超饱和设计得到了广泛的关注,其构造方法层出不穷。相比之下,由于其试验次数不足以估计所关心的因子主效应的特点,这类设计的变量选择既重要也具有挑战性。超饱和设计的变量选择方法仍有很大的发展空间。以下是本学位论文的结构。第一章介绍一些关于计算机试验以及超饱和设计等的预备知识。第二章给出了一种分片(近似)正交拉丁超立方体设计的构造方法。利用已有的正交拉丁超立方体设计,本章提出了一种分片(近似)正交拉丁超立方体设计的构造方法。所得到的设计参数灵活且大多数都是新的,因而极大地丰富了Yanget a1.(2013a)等人的结果。在正交性或近似正交性得到保证的前提下,设计的空间填充性质也得到了改进。第三章研究同时含有定性定量因子的计算机试验问题。有关计算机试验的绝大多数文献都假设输入变量是定量的。然而在近几年,研究者经常遇到同时含有定性定量因子的计算机试验。本章提出了一种新的设计,叫做最优聚集的分片拉丁超立方体设计。这种设计是一种将试验点分别堆集并且各片都具有良好均匀性的分片拉丁超立方体设计。对于含有定性定量因子的计算机试验而言,这种设计有助于捕捉定性因子不同水平组合下的响应之间的相关性。进一步,针这种设计我们提出了一种自适应分析的策略。该策略允许我们从所有辅助响应中自动提取出有用的信息从而使目标响应的精度得到改善。利用该策略,所提设计的有效应在模拟中得到了展示。对某个来自食品工程文献中的实际例子的研究则展望了使用所提设计和分析策略能带来的改进。第四章提出了一种计算机试验的变量选择方法。本章对高斯过程模型的均值函数提出了一种变量选择方法。该方法基于贝叶斯角度,其基本思想是为均值函数的所有候选变量引入一个示性向量。该示性向量的后验分布包含了关于变量选择的信息,且其后验样本可以方便地由Gibbs抽样产生,进而可以由这些样本来做变量选择。变量选择的结果就可以由这些样本来决定。来自计算机试验文献中的一个熟知的实例用来展示了该方法的实施步骤从而也展示了它在该例中的表现。该方法相对于已有方法的优越性通过实例和一些模拟展示了出来。结果显示,所提的方法丝毫不亚于已有方法且在好几个与变量选择和预测精度有关的指标上表现良好。第五章为超饱和设计提出了一种贝叶斯的变量选择方法。该方法结合了逐个Gibbs抽样以及函数诱导先验的优点,能同时考虑所有的模型且只花很少的时间做参数调节。对三个常见的超饱和试验的实例分析显示了该方法识别出的活跃效应与许多已有的方法一样。模拟显示了相对于文献中已有的多种方法,所提方法在真实模型识别率、最小效应识别率、活跃效应识别率、非活跃效应识别率以及模型大小这几个指标上表现良好。第六章是本学位论文的总结。