论文部分内容阅读
中图分类号:G908 文献标识码:A 文章编号:1009-914X(2018)30-0391-01
第一章 绪论
近年来,因果关系发现问题是人工智能和知识发现领域的研究热点,通过因果关系发现可以帮助人们认清复杂事物的本质与规律。研究者提出了多种表示因果关系的模型。因果模型是在变量中明确设置因变量和自变量的模型,其目的在于描述自变量的变化如何影响因变量的变化,它是研究因果关系推断的一种非常重要的工具,广泛地应用于统计学医学和数据挖掘等领域[Mazlack 2009][Kang 2009] [Kim 2010]。w
在图模型方面:Schmidt(2007)找到基于L1-线性回归无向图和交换变量的方法来估计一个DAG。Yuan Lin(2007)、Friedman 等(2008);Meinshausen,Buhlmann(2006)提出通过惩罚似然法估计的图模型。Shimizu(2006)提出了一种线性非高斯环状模型(lingam),其全部结构被证明是可识别的,而不需要预先指定的变量的因果顺序。同年,Shimizu (2006) 开发了非高斯方法来估计新模型。 Peters (2011)表明如果噪声变量函数是累积的并排除线性高斯情况以及一些非常规噪声函数,可以由分布L(X)识别图G。Yuan等(2012)根据已知的变量和潜变量的方差利用L0-惩罚似然估计DAG。J. Peters ,P. Buhlmann(2012)证明了高斯结构方程模型所有函数是线性的,并且具有相等方差σ2的正态分布噪声变量,则由分布可识别DAG。在算法方面: Hoyer等(2008)提出了PC算法,该算法融合了基于独立性测试和独立成份分析的方法。算法首先采用PC算法预测d分离等价类(d-Separation-Equivalence Class)Pella等提出了适用于连续变量的TC(Total Conditioning)算法[Pellet 2007,Pellet 2008],该算法具有比PC算法高的准确性。Raskutti and Uhler(2013)提出了基于发现稀疏置换算法进行变量的置换能产生稀疏的DAG。Ha等(2015)提出了一种两阶段方法,称为PenPC,用被惩罚回归估计的无向图,并移除虚假连接,通过改进PC的算法,这最终得到完全部分的DAG的估计。
第二章 基于邻域选择法识别高斯结构方程模型
因为似然方程(2)里的优化是在所有有向的无环图的空间上,导致估计很难计算。仅仅对p=20就有2.3×1072个有向无环图,这使得详尽的搜索很难实行。因此为了降低模型计算的复杂度,缩短运行时间,我们对有向无环图的贪婪搜索过程进行优化。第一步采用邻域选择法来选择每个顶点的马尔可夫毯,通过惩罚似然回归进行变量选择得到每个节点的马尔可夫毯,对无向图进行骨架估计,第一步输出DAG的骨架。第二步应用贪婪搜索算法来移除虚假边,得到DAG的估计。所有具有相同骨架和V结构的DAG都对应于相同的概率分布,它们构成了一个Markov等价类。在估计骨架后,V结构可以通过一组确定性规则来识别,因此我们不区分DAG骨架和Markov等价类的估计。
2.1 邻域选择
对于高斯结构方程模型的变量,是n×p观测数据矩阵。我们首先通过惩罚回归找到顶点i的邻域,作为响应变量,所有其它的变量作为协变量。在本文中采用的对数似然惩罚这已被证明具有良好高维基因组研究的性能,(Sun等人,2010)。在对每一个变量做惩罚回归之后,我们增加顶点i和j之间的边(如果)来重建GGM。我们使用log惩罚(Mazumder et al,2011)邻域选择,大大提高了马尔科夫毯搜索的准确性对于高维问题,例如,n=30,p=100,或n=300,p=1000。
是维矩阵,,表示含有一个或更多可调参数的惩罚方程。
惩罚函数是凹的在,且连续的导数,,通过L1惩罚回归估计协方差逆矩阵的非零项,估计一个高维的DAG的骨架。经过L1阶段后,我们可以得到一个DAG的大致骨架,该骨架限制了我们的搜索范围,也就是说最终的网络结构上的边必须在此骨架范围内,具体哪些边在最终的网络结构中?方向是什么?由贪婪搜索有向无环图过程来解决。
2.2 贪婪搜索算法
通过贪婪搜索过程最终确定残余边,输出DAG。在搜索阶段我们基于BIC SCORE进行贪婪搜索对剩余的残余边的方向进行确定。在该贝叶斯网络骨架约束的空间中通过贪婪搜索算法,对每个循环t,给定一个图和移动到邻近的有向无环图,用降幅最大的BIC SCORE。如果所有的邻近图在似然方程里有比更高的BIC SCORE,算法结束。执行增加边、删除边和转换边的方向等操作找到评分最优的网络。
2.3 模拟结果
对于不同的n和p值,我们比较两种方法的结果。对于一个给定的p值,我们随机选择均匀分布的次序变量,边验概率,误差方差指定为1。系数一致取值于。我们考虑稀疏集和稠密集。
Markov等价类可以由一个CPDAG表示。在模拟实验中,我们设定了估计真实DAG和估计CPDAG的汉明距离。这里指定距离2给每一对逆转边缘,例如:→真实图←估计图;所有其他的边错误记为1。我们使用R软件完成模拟。
表1显示对于稀疏集,估计的与真实的有向无环图之间的平均结构汉明距离和估计的与真实的马尔科夫等价类之间的平均结构汉明距离。
表2显示对于稠密集,估计的与真实的有向无环图之间的平均结构汉明距离和估计的与真实的马尔科夫等价类之间的平均结构汉明距离。
由表1和表2的模拟结果显示,优化后的算法所估计的图更接近于真实的有向无环图。
第三章 总结
本文采用极大似然估计结合贪婪搜索算法和邻域选择法进行高斯结构方程模型的识别,来估计图模型,实现具有相等誤差方差的高斯结构方程模型的识别。
参考文献
[1] 徐平峰.基于分解的图模型研究[D].东北师范大学,2010.
[2] 王济川.结构方程模型[M].高等教育出版社,2011.
[3] Min J H, Sun W, Xie J. PenPC : A two-step approach to estimate the skeletons of high-dimensional directed acyclic graphs[J]. Biometrics, 2014.
第一章 绪论
近年来,因果关系发现问题是人工智能和知识发现领域的研究热点,通过因果关系发现可以帮助人们认清复杂事物的本质与规律。研究者提出了多种表示因果关系的模型。因果模型是在变量中明确设置因变量和自变量的模型,其目的在于描述自变量的变化如何影响因变量的变化,它是研究因果关系推断的一种非常重要的工具,广泛地应用于统计学医学和数据挖掘等领域[Mazlack 2009][Kang 2009] [Kim 2010]。w
在图模型方面:Schmidt(2007)找到基于L1-线性回归无向图和交换变量的方法来估计一个DAG。Yuan Lin(2007)、Friedman 等(2008);Meinshausen,Buhlmann(2006)提出通过惩罚似然法估计的图模型。Shimizu(2006)提出了一种线性非高斯环状模型(lingam),其全部结构被证明是可识别的,而不需要预先指定的变量的因果顺序。同年,Shimizu (2006) 开发了非高斯方法来估计新模型。 Peters (2011)表明如果噪声变量函数是累积的并排除线性高斯情况以及一些非常规噪声函数,可以由分布L(X)识别图G。Yuan等(2012)根据已知的变量和潜变量的方差利用L0-惩罚似然估计DAG。J. Peters ,P. Buhlmann(2012)证明了高斯结构方程模型所有函数是线性的,并且具有相等方差σ2的正态分布噪声变量,则由分布可识别DAG。在算法方面: Hoyer等(2008)提出了PC算法,该算法融合了基于独立性测试和独立成份分析的方法。算法首先采用PC算法预测d分离等价类(d-Separation-Equivalence Class)Pella等提出了适用于连续变量的TC(Total Conditioning)算法[Pellet 2007,Pellet 2008],该算法具有比PC算法高的准确性。Raskutti and Uhler(2013)提出了基于发现稀疏置换算法进行变量的置换能产生稀疏的DAG。Ha等(2015)提出了一种两阶段方法,称为PenPC,用被惩罚回归估计的无向图,并移除虚假连接,通过改进PC的算法,这最终得到完全部分的DAG的估计。
第二章 基于邻域选择法识别高斯结构方程模型
因为似然方程(2)里的优化是在所有有向的无环图的空间上,导致估计很难计算。仅仅对p=20就有2.3×1072个有向无环图,这使得详尽的搜索很难实行。因此为了降低模型计算的复杂度,缩短运行时间,我们对有向无环图的贪婪搜索过程进行优化。第一步采用邻域选择法来选择每个顶点的马尔可夫毯,通过惩罚似然回归进行变量选择得到每个节点的马尔可夫毯,对无向图进行骨架估计,第一步输出DAG的骨架。第二步应用贪婪搜索算法来移除虚假边,得到DAG的估计。所有具有相同骨架和V结构的DAG都对应于相同的概率分布,它们构成了一个Markov等价类。在估计骨架后,V结构可以通过一组确定性规则来识别,因此我们不区分DAG骨架和Markov等价类的估计。
2.1 邻域选择
对于高斯结构方程模型的变量,是n×p观测数据矩阵。我们首先通过惩罚回归找到顶点i的邻域,作为响应变量,所有其它的变量作为协变量。在本文中采用的对数似然惩罚这已被证明具有良好高维基因组研究的性能,(Sun等人,2010)。在对每一个变量做惩罚回归之后,我们增加顶点i和j之间的边(如果)来重建GGM。我们使用log惩罚(Mazumder et al,2011)邻域选择,大大提高了马尔科夫毯搜索的准确性对于高维问题,例如,n=30,p=100,或n=300,p=1000。
是维矩阵,,表示含有一个或更多可调参数的惩罚方程。
惩罚函数是凹的在,且连续的导数,,通过L1惩罚回归估计协方差逆矩阵的非零项,估计一个高维的DAG的骨架。经过L1阶段后,我们可以得到一个DAG的大致骨架,该骨架限制了我们的搜索范围,也就是说最终的网络结构上的边必须在此骨架范围内,具体哪些边在最终的网络结构中?方向是什么?由贪婪搜索有向无环图过程来解决。
2.2 贪婪搜索算法
通过贪婪搜索过程最终确定残余边,输出DAG。在搜索阶段我们基于BIC SCORE进行贪婪搜索对剩余的残余边的方向进行确定。在该贝叶斯网络骨架约束的空间中通过贪婪搜索算法,对每个循环t,给定一个图和移动到邻近的有向无环图,用降幅最大的BIC SCORE。如果所有的邻近图在似然方程里有比更高的BIC SCORE,算法结束。执行增加边、删除边和转换边的方向等操作找到评分最优的网络。
2.3 模拟结果
对于不同的n和p值,我们比较两种方法的结果。对于一个给定的p值,我们随机选择均匀分布的次序变量,边验概率,误差方差指定为1。系数一致取值于。我们考虑稀疏集和稠密集。
Markov等价类可以由一个CPDAG表示。在模拟实验中,我们设定了估计真实DAG和估计CPDAG的汉明距离。这里指定距离2给每一对逆转边缘,例如:→真实图←估计图;所有其他的边错误记为1。我们使用R软件完成模拟。
表1显示对于稀疏集,估计的与真实的有向无环图之间的平均结构汉明距离和估计的与真实的马尔科夫等价类之间的平均结构汉明距离。
表2显示对于稠密集,估计的与真实的有向无环图之间的平均结构汉明距离和估计的与真实的马尔科夫等价类之间的平均结构汉明距离。
由表1和表2的模拟结果显示,优化后的算法所估计的图更接近于真实的有向无环图。
第三章 总结
本文采用极大似然估计结合贪婪搜索算法和邻域选择法进行高斯结构方程模型的识别,来估计图模型,实现具有相等誤差方差的高斯结构方程模型的识别。
参考文献
[1] 徐平峰.基于分解的图模型研究[D].东北师范大学,2010.
[2] 王济川.结构方程模型[M].高等教育出版社,2011.
[3] Min J H, Sun W, Xie J. PenPC : A two-step approach to estimate the skeletons of high-dimensional directed acyclic graphs[J]. Biometrics, 2014.