基于加性噪声模型的因果关系推断理论及其应用

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:yuanjie119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果关系是普遍存在于事物之间的联系,也是科学研究重要的出发点之一。在科学研究领域中,因果关系比相关关系具有更好的解释性,可以为决策者提供准确的判断依据。目前,因果关系作为一种全新的研究在数据挖掘领域脱颖而出,涌现出一批经典的推断模型。其中,针对一对一因果关系而提出的基于加性噪声模型的因果关系推断方法在连续仿真数据和离散仿真数据的实验的准确率高达90%。但是该模型还有很大的改进空间,尤其是在高维离散数据领域内的应用仍处于空白。现有研究中,该模型面临两个主要瓶颈为:1.该模型无法有效地发现多对一的因果关系;2.该模型无法准确地区分推断间接的因果关系。本文针对上述两个问题,按照三部分研究思路逐步提出并完善了基于加性噪声模型的泛化因果关系推断模型。这三部分研究思路分别为:1.设计并实现基于加性噪声模型的多对一泛化因果关系推断模型;2.改进并实现稀疏离散数据中的泛化因果关系推断技术的应用;3.优化泛化因果关系推断算法的缺点并将其应用于高维离散数据。上述三部分的研究思路遵循由易到难的研究路线,根据应用目标数据复杂度的增加而不断提出改进策略,使其能够应用于各种大数据研究领域。本文主要研究内容与成果如下:1.针对已有研究无法推断离散数据中多对一因果关系的技术瓶颈,构建基于加性噪声模型的泛化因果关系推断模型(Additive Noise Model for Multiple-causes Discovery,ANMMcD),并率先将ANMMcD应用于低维稀疏离散数据的因果关系推断研究。本文针对数据中普遍存在的多个原因因素共同影响同一结果因素的现象,提出了基于多元概率统计和加性噪声模型的初步泛化因果关系推断模型。该模型能够准确推断出离散数据中的多对一因果关系结构,解决了已有因果关系推断方法只能发现离散数据中的一对一因果关系的问题,为因果关系推断方法应用在离散数据的数据挖掘研究提供了理论基础。在实例应用过程中,ANMMcD模型在软件项目风险管理数据中表现优异(数据包含27个风险因素),能够准确找出影响项目最终收益的风险因素,比已有的基于贝叶斯网络和V结构(二对一)因果关系推断模型和多种经典的特征选择算法的性能更加优秀。2.将结构学习方法与ANMMcD相结合,构成新的基于结构学习方法的泛化因果关系推断模型(Multi-causes Discovery with Structure Learning,McDSL),实现稀疏离散数据中的因果关系推断。针对离散数据中存在的间接原因因素对基于加性噪声模型的因果关系推断结果会造成干扰的问题,结合了结构学习方法和基于加性噪声模型的泛化因果关系推断模型,构建了两步式的泛化因果关系推断模型。该模型通过确定目标因素的潜在原因/结果因素,解决了间接原因因素干扰所造成的额外计算复杂度、影响准确率等问题,在低维因果关系推断中比ANMMcD模型更加有效,为高维离散数据中的因果关系推断研究提供了可行的方案。在实例应用中,McDSL模型被应用于股票收益的风险因子分析问题。股票收益风险数据比软件项目风险管理数据包含更多的风险因素(数据包含50个风险因素)和更加复杂的因果关系。实验结果表明McDSL模型找出的风险因素能够表现出市场投资规律,比已发表研究中的多种特征选择算法的收益预测的表现更加优秀。3.将智能算法与McDSL模型中的结构学习过程相结合,提出面向高维复杂的离散数据的启发式泛化因果关系推断(Heuristic Multi-causes Discovery,HMcD)模型,优化泛化因果关系推断过程的计算复杂度。针对数据中加性噪声对因果关系推断过程的影响,采用遗传算法结合泛化因果关系推断方法,构建了启发式泛化因果关系推断模型。该模型结合了遗传算法的全局搜索能力和快速收敛性质,能够在样本数据有误差的情况中,以更少的计算复杂度挖掘出更准确的信息,为高维离散数据中的因果关系推断研究提供了一个崭新的领域。该模型的实例应用采用了药物副作用数据,验证其在高维离散数据中的因果关系推断性能(数据包含1385个风险因素和888种药物)。实验结果表明,HMcD模型能够推断出准确的因果关系,比已有算法基于结构学习的因果关系分析模型(Causality Analysis model based on Structure Learning,CASTLE)找出的更加准确的原因因素,性能表现更优异。综上所述,本文提出和逐步完善基于加性噪声模型的泛化因果关系推断模型,通过理论证明和仿真实验证明模型的性能,并且应用于多个研究领域真实数据挖掘时表现突出,对因果关系领域的研究具有重要的参考价值。
其他文献
【正】 日本的煤炭市场是世界煤炭贸易的最主要市场之一,对我国煤炭出口尤为重要。如今中日间的煤炭贸易总量巳达1200万吨/年以上的水平,贸易额于1997年也达到创记录的4.78亿
本文旨在探索大脑对颜色和形状特征提取、存储和捆绑的神经机制和认知过程,研究相应计算机模型的构建方法。图像是由颜色、形状等不同维度特征的视觉信息组合而成,为了识别外
枪支发射后留在子弹弹头和弹壳上的痕迹是侦破案件的重要线索和司法判决的重要物证,具有重要的研究价值。枪支的加工过程以及使用过程中的腐蚀和磨损会在枪支的一些部件上形
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
可达查询是图数据挖掘和管理中的重要基础操作,被广泛应用于相关领域中,例如社会网络、生物信息网络、交通网络、以及语义Web等。针对可达查询的研究已有几十年的历史,从早期
科学工作流是大规模科学计算程序的重要组织模式之一。近年来,随着科学研究的日趋广泛和深入,其对计算资源的需求也呈现出爆炸性增长的趋势。基础设施即服务(IaaS)模型是云计
随着社会的不断发展,数据的构成呈现复杂化与高维化的趋势,大数据降维研究中应用广泛的特征选择算法已经成为大数据和数据驱动背景下社会经济决策和企业商务决策重要的研究方
"阴阳"是构成《周易》哲学的基本内核,阴阳二气周流往复,构成一个回环无尽、无限循环的有机整体。这阴阳二气与书法意象的创构,存在着一种天然的"异质同构"。天地万物禀阴阳
蓬错蛇绿岩具有较完整的蛇绿岩岩性单元组成,是研究班公湖–怒江缝合带中段构造演化的良好载体。辉绿岩中获得一组锆石LA-ICP-MS U-Pb年龄为159.0±2.1 Ma,表明蓬错蛇绿岩形
我科2002年~2009年应用我院自行研制的中药制剂肝康乐丸配合乙型肝炎(简称乙肝)疫苗、核糖核酸治疗小儿慢性乙型肝炎80例,疗效显著,现报告如下。