自适应和非参数控制图的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:lwyhunter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计过程控制(Statistical Process Control)是应用统计方法和技术对过程中各个阶段进行监控,从而达到改进与保证产品质量和过程稳定的目的.它曾经被广泛应用于各种生产过程,现在除了制造业还被应用于其他很多产业,如生物,基因,医药,金融,信号处理,网络安全,图像处理和卫生保健等,一些得到广泛应用的控制图有Shewhart控制图(Shewhart1931),累积和(CUSUM)控制图(Page1954)和指数滑动平均(EWMA)控制图(Roberts1959).研究表明Shewhart控制图对检测单独的或者比较大的持续的漂移效果较好,而累积和控制图和指数滑动平均控制图则对检测持续的中小漂移效果比较好.这些控制图和文献中一些其他控制图的优良性质都基于一个关键假设,即过程分布是完全己知的.然而,一方面,在很多应用中,人们普遍认识到潜在过程分布是未知的而且也不是正态分布,这样根据正态分布设计的表现最好的控制图统计性质就有可能会受(很大)影响.在小样本量时,这种由于非正态而导致的表现变差的问题更加突出,尤其是单个观测值情形(参考Montgomery2004),这是因为这时候中心极限定理不再(近似)成立,另外一方面,即使潜在过程分布可以假设已知,在实际应用中过程初始阶段,过程分布的参数还是未知的,它们需要从受控历史样本来估计(也称为第一阶段).当历史样本数量较小时,带有参数估计的控制图一般会使得受控平均运行长度产生很大偏差,同时降低检测过程失控的灵敏性(由失控平均运行长度来衡量).而且,经过比较小的运行时间后,控制图误报率会显著加大.这就是所谓的“带有参数估计的控制图”问题.我们可以看到,关于过程质量的数据和信息量非常少是这些情况的特点.这样,我们就很亟需能够运用少量数据和信息的控制图来控制,监测和诊断生产过程,然而,在统计过程控制图中,如何有效监测和控制这种少量数据和信息的过程仍有很多问题.   本论文正是在这样背景下,在如下一些重要前沿问题上展开研究:动态累积和Q图,带有可变抽样区间的累积和Q图,利用P值设计的统计过程控制图,带有动态抽样的统计过程控制图,通过对观测数据进行变换或分类而构造的非参数统计过程控制图.为了解决这种数据和信息很少的问题,我们首先介绍并构造了一些新的方法,其中前两种用于受控分布可以假设为正态但参数未知的情形,而后面四种主要用于受控分布完全未知的情形.具体点说,在前两章,我们为了充分利用这样的少量数据和信息构造了一些自适应控制图,使得我们所提出的方法在表现方面有了很大提高,然后在后面四章里,我们构造了一些非参数控制图来用于受控过程分布完全未知的情形.接下来我们给出简要介绍,对过程初始阶段,Quesenberry(1991)提出了一些很重要的公式,使得不论估计所需信息是否已知,都可以从过程一开始就对过程均值或方差进行监控.Que-senberry(1995)对连续型变量研究了Q图性质,同时研究了基于指数滑动平均的Q图和基于累积和的Q图的灵敏性.研究表明,(如Moustakides1986),如果受控过程参数是已知的,那么当累积和控制图参考值取漂移大小一半时对检测这个漂移是最优的.然而,Zantek(2006)表明,由于把原来观测值变换成了Q统计量,这使得用这个参考值的累积和Q图对检测这个漂移不再是最优的,并建议参考值由黄金分割法来搜索.但是Zantek(2006)给出的这个参考值是根据特定漂移大小来选取的,而且这个参考值往往很难确定,尤其是在过程初始阶段,这是因为这时候过程参数都没有准确估计得到.在很多应用里,在运用控制图以前过程漂移大小并不是己知的,这样就有必要构造能够有效监控一系列漂移的控制图.在第1章里,我们为了更好检测一系列漂移,提出了动态累积和Q图,记为ACQ.这种控制图继承了Q图的不需要过程参数己知的优势,这使得能够把它应用到过程初始阶段,同时这种控制图克服了累积和Q图的参考值必须根据给定漂移来选取的缺陷,我们还研究了所提出控制图的参数选取和掩盖现象,模拟结果表明我们所提出的控制图对不同大小漂移都有比较好的检测效果,而且和动态变点方法(Hawkins et al.2003)有着可比的表现.   Montgomery(2007)表明统计过程控制一个很重要研究领域就是动态控制图,即带有可变样本容量或可变抽样间隔的控制图.尽管在过程第二阶段带有可变抽样频率的控制图已经在文献中得到了充分研究,在过程第一阶段对可变抽样频率的控制图研究还比较少.Jensen et al.(2008)考虑了估计过程参数对动态控制图表现的影响,并且表明动态控制图只能应用于过程成熟阶段,因为这时候已经有足够第一阶段数据来保证估计的控制线准确性,在第2章里,我们详细研究了带有可变抽样区间的累积和Q图(记为VSICQ),来监控过程均值变化.运用这种控制图,当开始抽样时,可以确定下一个样本的抽样间隔.Zantek(2006)指出Q统计量的大小在不同程度上被掩盖了,这极大影响了累积和Q图的检测能力.由于并没有文献表明Q统计量的这种掩盖到底被掩盖了多少,因此构造带有可变抽样区间的累积和Q图并不是容易解决的问题.我们通过蒙特卡洛模拟来找到累积和Q图统计量的经验分布.同时我们详尽研究了控制图参数对控制图表现的影响,我们还通过动态搜索参考值来提高这种控制图的效果.由于所提出控制图具有比较好的性质,模拟结果表明它对各种情形都能提供比较满意的结果,由于继承了累积和Q图的过程参数不需要己知的优势,我们所提出的带有可变抽样区间的累积和Q图克服了Jensen et al.(2008)所提出的问题,我们所提出的控制图有以下优良性质:1)它可以应用于过程初始阶段;2)它的构造和设计相对简单3)它对一系列漂移都很敏感.   传统控制图在控制图统计量落到控制线区域以外时就会给出过程失控的警报.在实际应用中,当人们得到过程失控警报后,很有可能还想知道这个警报有多强,这样就可以采取相应后继措施.在采用可变抽样频率控制图情形下,即使在某个时间点没有检测到一个漂移,但如果可以得到潜在漂移可能性大小也将是很有帮助的.运用带有控制线的传统控制图,这种潜在漂移可能性大小的量化指标很难得到.受到假设检验中p值方法启发,在第3章,我们建议用p值来构造控制图.利用p值方法,对一个给定控制图,我们先计算或估计出控制图统计量的受控分布,然后,对给定时间点,我们可以得到相应于控制图统计量观测值的p值.如果这个p值超过了一个事先确定的显著性水平,那么控制图给出过程失控警报.在文献中,已有很多作者对传统控制图统计量的p值计算进行了研究,例如Benjamini andKling(1999,2002,2007),Grigg and Spiegelhalter(2008)和Li and Tsung(2009).然而,对于各种情形运用p值构造控制图的研究还很缺乏,与传统运用控制线的控制图相比,我们提出的基于p值的控制图有以下优良性质:1)在给定时间点,即使没有得到过程失控警报,p值仍能给我们提供潜在漂移可能性大小的量化指标,这使得我们可以对下一个样本的抽样间隔进行相应调整:2)当得到过程失控警报后,p值可以告诉我们在观测到的数据中,这个漂移的证据到底有多强.根据p值,我们可以采取不同后继措施来寻找过程失控根本原因;3)基于p值的控制图实际上是在监测一系列p值,当p值低于事先给定显著性水平时给出过程失控警报.这样,使得基于p值的控制图比基于控制线的传统控制图更加容易解释;4)传统控制图可能有不同形式(如单边或双边控制图),而且它们控制线在不同情形下也是不同的.相比而言,所有基于p值的控制图都有一个统一形式,即竖直方向总是落在[0,l]区间里,这就是p值取值范围,并且只有一个相当于显著性水平的下控制线.这使得控制图更加容易使用.   在文献中,(例如,Costa1998,Wu et al.2007,Reynolds and Arnold2001),抽样区间函数d(·)通常只取两个值.在第4章,我们建议选取d(·)是我们上一章所提出的累积和控制图统计量的p值的一个连续函数,在这一章里我们称这种变化的抽样为动态抽样策略,为应用简便,我们建议从Box-Cox变换族中选取抽样区间函数,并且我们的结果表明这种动态抽样策略在各种情况下都有非常好的表现.另外,我们注意到实际中过程漂移大小是未知的,为了克服这个困难,我们建议自适应的估计这个可能漂移,然后再相应选取我们所提出控制图的参考值.   构造不需要过程分布具体形式的控制图是必需的.为了实现这个目的,文献给出了很多不依赖于分布的或非参数的控制图.Chakraborti et al.(2001)给出了一元非参数控制图的综述.可以看出,大多数已有控制图都是基于同一时间点或不同时间点观测值的顺序或秩的信息.它们其中一些需要在每一个时间点有多个观测值(即成组数据情形).我们给出另外的方法,通过把非正态数据进行适当变换,使得变换后数据分布接近正态,然后再把传统控制图应用于变换后数据,为达到这个目的,在第5章里,我们提出了两种基于变换的控制图,第一种基于Chou etal.(1998)提出的一种算法,即通过Slifker and Shapiro’s(1980)的方法对Johnsons(1949)分布进行分布估计,进而实现把非正态数据变换成接近标准正态数据.第二种基于Box-Cox变换族(参考.,13.1.4节,Cook and Weisberg1999).我们把这两种基于变换的控制图和传统控制图以及两种最近的非参数控制图进行了比较,对于一个具体的应用,我们给出了选取合适非参数控制图的经验准则.   在第6章里,我们给出另外的方法来处理当过程分布未知时的一元统计过程控制图问题.根据所提出方法,我们首先把观测值分类,然后运用分类数据的统计方法来构造非参数统计过程控制图,我们主要是基于以下考虑:1)描述和分析非正态连续型数据的方法是有限的,但是处理分类数据的方法却很多(参考Agresti2002).2)对数据取秩和对数据分类都会损失原有观测值信息,但是由于分类而造成的信息损失可以由类的数目来控制.3)我们所提出的方法不需要在同一个时间点有多个观测值,它也不需要观测值必须是数值型的,在这样的框架下,我们给出了几种新的非参数控制图,这些控制图基于结合Crosier(1988)的多元累积和控制图和Pearson的X2检验,或结合Crosier(1988)的多元累积和控制图和似然比检验,或结合Kolmogorov-Smimov拟合优度检验.我们还在各种情形下对所提出的控制图和一些代表性的已有控制图进行了比较.对于一个具体的应用,我们给出了选取合适非参数控制图的经验准则.第7章总结了本文,并提出了一些今后的工作设想.本论文主要创新点如下:   1.我们为了更好的检测一系列漂移,提出了动态累积和Q图(记为ACQ).这种控制图继承了Q图的不需要过程参数已知的优势,这使得能够把它应用到过程初始阶段,同时这种控制图克服了累积和Q图参考值必须根据给定漂移来选取的缺陷.我们还详细研究了带有可变抽样区间的累积和Q图(记为VSICQ),来监控过程均值变化,运用这种控制图,当开始抽样时,可以确定下一个样本的抽样间隔,我们所提出的控制图有以下优良性质:1)它可以应用于过程初始阶段;2)它的构造和设计相对简单;3)它对一系列漂移都很敏感.   2.我们建议用p值来构造控制图.与传统运用控制线的控制图相比,这种基于p值的控制图有以下优良性质:1)在给定时间点,即使没有得到过程失控警报,p值仍能给我们提供潜在漂移可能性大小的量化指标,这使得我们可以对下一个样本抽样间隔进行相应调整;2)当得到过程失控警报后,p值可以告诉我们在观测到的数据中,这个漂移的证据到底有多强.根据p值,我们可以采取不同后继措施来寻找过程失控的根本原因;3)基于p值的控制图实际上是在监测一系列p值,当p值低于事先给定的显著性水平时给出过程失控警报.这样,使得基于p值的控制图比基于控制线的传统控制图更加容易解释;4)传统控制图可能有不同形式(如单边或双边控制图),而且它们控制线在不同情形下也是不同的,相比而言,所有基于p值的控制图都有一个统一形式,即竖直方向总是落在[O,1]区间里,这也是p值取值范围,并且只有一个相当于显著性水平的下控制线,这使得控制图更加容易使用,我们还建议选取抽样区间函数d(·)是我们所提出累积和控制图统计量的p值的一个连续函数.为应用简便,我们建议从Box-Cox变换族中选取抽样区间函数,并且我们结果表明这种动态的抽样策略在各种情况下都有非常好的表现.   3.我们给出另外方法来构造非参数控制图,即通过把非正态数据进行适当变换,使得变换后数据分布接近正态,然后再把传统控制图应用于变换后数据,我们还利用分类数据的方法给出另外方法来处理当过程分布未知时的一元统计过程控制图问题,我们提出的控制图有以下优良性质:1)由于分类而造成的信息损失可以由类的数目来控制.2)我们所提出的方法不需要在同一个时间点有多个观测值.3)它也不需要观测值必须是数值型的.  
其他文献
学位
Markov链在概率论、排队论、Monte Carlo的算法研究、随机动力系统、迭代函数系统以及统计物理学的研究中有着重要的应用。Markov链的遍历理论是研究Markov链的渐近性态的理
随着人类基因组计划的完成,生命科学的研究重点从生物数据的获取与整理转移到其生物功能注释上,包括基因、蛋白质的功能与结构的注释,大规模基因表达谱中的基因表达模式分析
本文基于数字空间Z3上的GK-拓扑,即二维格点拓扑(GP2-拓扑)与Khalimsky线拓扑(K-拓扑)的乘积拓扑,对3维数字图像进行理论分析和研究.首先,在GK拓扑下,考虑GK-连续映射,引入GK-拓扑范畴;考虑GK-邻接关系和GK-邻接邻域,然后考虑数字图像间保持GK-邻接邻域的映射,即保持连通性的映射,也就是GK-A-映射,从而引入GK-邻接范畴.其次,在GK-拓扑范畴中定义GK-同伦,并给
学位
本文主要研究了拟微分算子分别与BMO函数、Lipschitz函数以及加权型Lipschitz函数构成的三种多线性交换子在Lp空间(1<p<∞)、L∞(ω)空间(ω∈A1)以及Bp(ω)空间(1<p<∞,ω∈A1)上
本文考虑一类具有对数非线性项的混合伪抛物-p拉普拉斯方程的初边值问题.通过建立一族位势井,利用带对数的Sobolev不等式,我们证明了弱解的整体存在性,其中包括两部分:整体有界性
本文考虑具超临界敏感函数的抛物-椭圆Keller-Segel模型: ut=?·(D(u)?u)??·(S(u)?v),0=?v?v+u于?×(0, T),这里有界域??Rn, n≥2,附加无边界流条件, D(u)’(u+1)?q, S(u)’