论文部分内容阅读
近几十年来,随着计算机科学技术的飞速发展,高维数据分析在现代科学研究中越来越突显其重要性。比如在生物学的微阵列数据中,金融学的股票市场分析,无线通讯网络等新兴领域中,都出现了关于海量数据的统计问题。遗憾的是,传统的统计建模方法滞后于数据信息的发展,在高维数据分析中具有很大的局限性。起源于理论物理的图模型,近些年来被越来越多地应用于高位数据集和复杂系统的研究中,成为现代统计学领域新发展起来的热点领域。图模型用无向图,有向图,或者混合图,以一种可视化、计算高效的方式表示多元随机变量间的相依知识(条件独立)。而多元随机变量间的相依知识是统计科学的中心工作。许多熟悉的概念,如相关、回归、预测都是其特例,并且因果的识别也最终依赖于多元随机变量间相依知识的表达。一个图模型就是一族概率分布族,其中每个概率分布满足由图所编码的条件独立关系(相依知识)。图模型有机结合了定量和定性两种基本的研究方法,成为现代日益流行的统计建模方法,它在本质上就是传统的统计模型中高效的利用了随机变量间的条件独立关系。因此,说图模型是现代高级统计理论的代表是恰当的。目前,根据所使用图的类型,图模型有无向图模型(也称为Markov网络),有向无圈图模型(也称为Bayes网络),链图模型和祖先图模型四种类型。条件独立知识的表示,即Markov性理论是图模型最基本的理论,是图模型有用的根源,影响和制约着图模型的发展,也一直是图模型研究中较困难的课题。本文围绕图模型的Markov性这一基础理论展开研究,具体包括以下四个方面的工作。第一,研究了链图中全局Markov-i性的定义问题,给出了直接图定义标准-i分离标准。Ⅰ-分离标准与道义化标准是等价的,且简单、容易操作,这对许多疑难理论问题的处理和促进模型的广泛应用具有极大的建设作用。第二,研究了链图模型的忠实性和完备性这两大疑难理论问题。基于i-分离标准,证明了任意链图存在忠实的概率分布(离散的或正态的)和分离标准既是单个完备的,又是强完备的,从而说明链图模型的应用在逻辑上是合理的,消除了人们利用链图模型进行统计建模的疑虑。第三,研究了祖先图模型的分离树,祖先图模型的分离树被称为m-分离树。研究得到了m-分离树的优美性质并给出了m-分离树的构建方法,使得祖先图所表达的Markov性知识也可以分解表达,这必将方便祖先图模型的统计推理和结构学习。第四,研究了特殊图的色参数,因为图染色技术已在图模型中发挥重要作用,成为图模型重要的理论基础。我们确定了3-正则Halin的完备色参数和关联色参数,证明了伪-Halin图存在关联-(△+2,2)染色。通过本论文的研究,进一步凸显了图模型在现代统计中的重要地位,必将对图模型及其统计学的发展产生积极的影响。