具有相等误差方差的高斯结构方程模型的算法研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:taowangqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:G908 文献标识码:A 文章编号:1009-914X(2018)30-0391-01
  第一章 绪论
  近年来,因果关系发现问题是人工智能和知识发现领域的研究热点,通过因果关系发现可以帮助人们认清复杂事物的本质与规律。研究者提出了多种表示因果关系的模型。因果模型是在变量中明确设置因变量和自变量的模型,其目的在于描述自变量的变化如何影响因变量的变化,它是研究因果关系推断的一种非常重要的工具,广泛地应用于统计学医学和数据挖掘等领域[Mazlack 2009][Kang 2009] [Kim 2010]。w
  在图模型方面:Schmidt(2007)找到基于L1-线性回归无向图和交换变量的方法来估计一个DAG。Yuan Lin(2007)、Friedman 等(2008);Meinshausen,Buhlmann(2006)提出通过惩罚似然法估计的图模型。Shimizu(2006)提出了一种线性非高斯环状模型(lingam),其全部结构被证明是可识别的,而不需要预先指定的变量的因果顺序。同年,Shimizu (2006) 开发了非高斯方法来估计新模型。 Peters (2011)表明如果噪声变量函数是累积的并排除线性高斯情况以及一些非常规噪声函数,可以由分布L(X)识别图G。Yuan等(2012)根据已知的变量和潜变量的方差利用L0-惩罚似然估计DAG。J. Peters ,P. Buhlmann(2012)证明了高斯结构方程模型所有函数是线性的,并且具有相等方差σ2的正态分布噪声变量,则由分布可识别DAG。在算法方面: Hoyer等(2008)提出了PC算法,该算法融合了基于独立性测试和独立成份分析的方法。算法首先采用PC算法预测d分离等价类(d-Separation-Equivalence Class)Pella等提出了适用于连续变量的TC(Total Conditioning)算法[Pellet 2007,Pellet 2008],该算法具有比PC算法高的准确性。Raskutti and Uhler(2013)提出了基于发现稀疏置换算法进行变量的置换能产生稀疏的DAG。Ha等(2015)提出了一种两阶段方法,称为PenPC,用被惩罚回归估计的无向图,并移除虚假连接,通过改进PC的算法,这最终得到完全部分的DAG的估计。
  第二章 基于邻域选择法识别高斯结构方程模型
  因为似然方程(2)里的优化是在所有有向的无环图的空间上,导致估计很难计算。仅仅对p=20就有2.3×1072个有向无环图,这使得详尽的搜索很难实行。因此为了降低模型计算的复杂度,缩短运行时间,我们对有向无环图的贪婪搜索过程进行优化。第一步采用邻域选择法来选择每个顶点的马尔可夫毯,通过惩罚似然回归进行变量选择得到每个节点的马尔可夫毯,对无向图进行骨架估计,第一步输出DAG的骨架。第二步应用贪婪搜索算法来移除虚假边,得到DAG的估计。所有具有相同骨架和V结构的DAG都对应于相同的概率分布,它们构成了一个Markov等价类。在估计骨架后,V结构可以通过一组确定性规则来识别,因此我们不区分DAG骨架和Markov等价类的估计。
  2.1 邻域选择
  对于高斯结构方程模型的变量,是n×p观测数据矩阵。我们首先通过惩罚回归找到顶点i的邻域,作为响应变量,所有其它的变量作为协变量。在本文中采用的对数似然惩罚这已被证明具有良好高维基因组研究的性能,(Sun等人,2010)。在对每一个变量做惩罚回归之后,我们增加顶点i和j之间的边(如果)来重建GGM。我们使用log惩罚(Mazumder et al,2011)邻域选择,大大提高了马尔科夫毯搜索的准确性对于高维问题,例如,n=30,p=100,或n=300,p=1000。
  是维矩阵,,表示含有一个或更多可调参数的惩罚方程。
  惩罚函数是凹的在,且连续的导数,,通过L1惩罚回归估计协方差逆矩阵的非零项,估计一个高维的DAG的骨架。经过L1阶段后,我们可以得到一个DAG的大致骨架,该骨架限制了我们的搜索范围,也就是说最终的网络结构上的边必须在此骨架范围内,具体哪些边在最终的网络结构中?方向是什么?由贪婪搜索有向无环图过程来解决。
  2.2 贪婪搜索算法
  通过贪婪搜索过程最终确定残余边,输出DAG。在搜索阶段我们基于BIC SCORE进行贪婪搜索对剩余的残余边的方向进行确定。在该贝叶斯网络骨架约束的空间中通过贪婪搜索算法,对每个循环t,给定一个图和移动到邻近的有向无环图,用降幅最大的BIC SCORE。如果所有的邻近图在似然方程里有比更高的BIC SCORE,算法结束。执行增加边、删除边和转换边的方向等操作找到评分最优的网络。
  2.3 模拟结果
  对于不同的n和p值,我们比较两种方法的结果。对于一个给定的p值,我们随机选择均匀分布的次序变量,边验概率,误差方差指定为1。系数一致取值于。我们考虑稀疏集和稠密集。
  Markov等价类可以由一个CPDAG表示。在模拟实验中,我们设定了估计真实DAG和估计CPDAG的汉明距离。这里指定距离2给每一对逆转边缘,例如:→真实图←估计图;所有其他的边错误记为1。我们使用R软件完成模拟。
  表1显示对于稀疏集,估计的与真实的有向无环图之间的平均结构汉明距离和估计的与真实的马尔科夫等价类之间的平均结构汉明距离。
  表2显示对于稠密集,估计的与真实的有向无环图之间的平均结构汉明距离和估计的与真实的马尔科夫等价类之间的平均结构汉明距离。
  由表1和表2的模拟结果显示,优化后的算法所估计的图更接近于真实的有向无环图。
  第三章 总结
  本文采用极大似然估计结合贪婪搜索算法和邻域选择法进行高斯结构方程模型的识别,来估计图模型,实现具有相等誤差方差的高斯结构方程模型的识别。
  参考文献
  [1] 徐平峰.基于分解的图模型研究[D].东北师范大学,2010.
  [2] 王济川.结构方程模型[M].高等教育出版社,2011.
  [3] Min J H, Sun W, Xie J. PenPC : A two-step approach to estimate the skeletons of high-dimensional directed acyclic graphs[J]. Biometrics, 2014.
其他文献
[摘 要]本文所要介绍的压力表是一种测量工具,主要测量的参数是压力的大小。因为压力在我国很多行业都需要进行应用和测量,所以压力表的使用十分广泛。甚至在一些工业当中,压力表的应用是很重要的,对一些压力仪器的压力值进行测量,来对这些仪器进行质量的评估。寻找出一套有效的解决方案,目的是让压力表的测量数据更加精确。并且使工作人员的工作效率得到提升,在我国的测量行业有着很重要的意义。  [关键词]压力表;计
期刊
中图分类号:G918 文献标识码:A 文章编号:1009-914X(2018)30-0347-01  樱桃果树好吃却难栽培,这是大多数人的经验所得。有些人在栽培过程中急于求成,没有顺从自然规律,造成了相反的效果。所以要想栽培出好吃的樱桃果树,就必须要符合人性化管理思想:不仅要顺从樱桃果树自身的习性及其生长规律,而且要为其生长创造良好的生活环境。下面我将以单位街道办事处的角度出发,就樱桃果树栽培人性
期刊
[摘 要]本文结合笔者多年工作实际面对变相加热炉在油田现场中的应用进行了相关的讨论,在分析其加热原理的基礎上,从存在问题与处理措施进行研究,同时度应用过程需要掌握的要低进行讨论,目的在于提高应用水平。  [关键词]油田现场;变相加热炉;实践  中图分类号:G268 文献标识码:A 文章编号:1009-914X(2018)30-0360-01  0 前言  加热设备随着科技的发展效能得到了极大的提高
期刊
[摘 要]目前立式蒸汽锅炉被广泛的用于食品加工、生活、取暖、消毒等行业中,在立式蒸汽锅炉的定期检验中,锅炉的炉胆、冲天管、喉管、横水管、烟管等部件都密集的排列在狭小的空间内,检验员无法近距离观察及实施各种检测手段,所以,进行水压试验检验是最直观及稳妥的检验方法。  [关键词]立式蒸汽锅炉 定期检验 水压试验 贯穿性腐蚀 泄漏  中图分类号:G468 文献标识码:A 文章编号:1009-914X(2
期刊
中图分类号:G201 文献标识码:A 文章编号:1009-914X(2018)30-0383-01  质量是企业生存的命脉,信誉是企业发展的根本。在本厂数个车间里,丁苯橡胶车间生产工艺复杂,29种助剂、7个生产单元、500多种控制参数,每一环节都影响着产品最终质量,而质量又影响着厂里和整个公司信誉。在整个橡胶生产工艺流程中,助剂配制是所有因素中最为重要的环节。  每一种助剂被投入正常生产使用,都要
期刊
[摘 要]创造是动漫设计的核心。动漫设计的不断发展为我们创造了一个展示自身创造能力的广阔舞台。动漫设计百年的发展是创造潜能开发的结果,是设计思维的价值体现。  [关键词]设计;创意;动漫形象  中图分类号:G788 文献标识码:A 文章编号:1009-914X(2018)30-0386-01  一、意识方向的整体性  动漫设计者在动漫创意的过程中要加强对动漫创作意识方向整体性的把握。我国动漫产业的
期刊
[摘 要]简约主义思想内涵丰富,并在未来愈加丰富。本文对简约主义相关概念进行了系统阐述;其次对“简约主义”产品设计元素进行分析,对我国简约设计之路提出几点思考和看法。  [关键词]简约;元素;产品设计  中图分类号:G728 文献标识码:A 文章编号:1009-914X(2018)30-0388-01  简约主义概述  简约主义是美国著名的艺术评论家巴巴拉·罗斯用来形容美国20世纪60年代涌现的一
期刊
[摘 要]动漫产业是科学性、能动性与创造性完美结合的创意产业,它的最终目的是组织协调艺术与技术之间的关系。面对中国动漫设计产业的种种发展问题,除了政策与市场等问题之外,编剧、形象、技术、人才等方面也存在着很多不足。最主要的是动漫设计者设计观念和思维上的阻碍影响动漫产业的设计创意,导致的结果是动漫产业的停滞和动漫设计创意的无个性化,无创新的特点。本文针对动漫设计的创新问题总结出一些方法,动漫设计人员
期刊
[摘 要]光影常用于游戏原画创作中,光影对画面的影响比较大,影响着画面的细腻度、情绪、画面的感染力等等,光影对形体的塑造值得深入研究。  [关键词]游戏原画;光影设计;影响  中图分类号:G748 文献标识码:A 文章编号:1009-914X(2018)30-0384-01  引言  光影造型中,黑暗可以滋长画面不安定的情绪,可以是游戏玩家感受到空间的挤压和深邃。运用光影的形态,动与静、轻重、虚实
期刊
[摘 要]近些年来,移动互联网技术飞速发展,互联网技术渐渐渗透到人类生活的方方面面。同时,HTML5技术作为新一代计算机网络和互联网技术的标准,随着时代的发展,人们生活中最重要的网络渠道是移动互联网,正因为有HTML5在互联网技术中的应用,互联网的发展空间得到了广泛的延伸,人们通信的形式不再局限于文字,能够涉及到数字化语音以及多媒体图像。本文主要阐述HTML5在移动互联网开发中的应用分析。  [关
期刊