论文部分内容阅读
因果关系是普遍存在于事物之间的联系,也是科学研究重要的出发点之一。在科学研究领域中,因果关系比相关关系具有更好的解释性,可以为决策者提供准确的判断依据。目前,因果关系作为一种全新的研究在数据挖掘领域脱颖而出,涌现出一批经典的推断模型。其中,针对一对一因果关系而提出的基于加性噪声模型的因果关系推断方法在连续仿真数据和离散仿真数据的实验的准确率高达90%。但是该模型还有很大的改进空间,尤其是在高维离散数据领域内的应用仍处于空白。现有研究中,该模型面临两个主要瓶颈为:1.该模型无法有效地发现多对一的因果关系;2.该模型无法准确地区分推断间接的因果关系。本文针对上述两个问题,按照三部分研究思路逐步提出并完善了基于加性噪声模型的泛化因果关系推断模型。这三部分研究思路分别为:1.设计并实现基于加性噪声模型的多对一泛化因果关系推断模型;2.改进并实现稀疏离散数据中的泛化因果关系推断技术的应用;3.优化泛化因果关系推断算法的缺点并将其应用于高维离散数据。上述三部分的研究思路遵循由易到难的研究路线,根据应用目标数据复杂度的增加而不断提出改进策略,使其能够应用于各种大数据研究领域。本文主要研究内容与成果如下:1.针对已有研究无法推断离散数据中多对一因果关系的技术瓶颈,构建基于加性噪声模型的泛化因果关系推断模型(Additive Noise Model for Multiple-causes Discovery,ANMMcD),并率先将ANMMcD应用于低维稀疏离散数据的因果关系推断研究。本文针对数据中普遍存在的多个原因因素共同影响同一结果因素的现象,提出了基于多元概率统计和加性噪声模型的初步泛化因果关系推断模型。该模型能够准确推断出离散数据中的多对一因果关系结构,解决了已有因果关系推断方法只能发现离散数据中的一对一因果关系的问题,为因果关系推断方法应用在离散数据的数据挖掘研究提供了理论基础。在实例应用过程中,ANMMcD模型在软件项目风险管理数据中表现优异(数据包含27个风险因素),能够准确找出影响项目最终收益的风险因素,比已有的基于贝叶斯网络和V结构(二对一)因果关系推断模型和多种经典的特征选择算法的性能更加优秀。2.将结构学习方法与ANMMcD相结合,构成新的基于结构学习方法的泛化因果关系推断模型(Multi-causes Discovery with Structure Learning,McDSL),实现稀疏离散数据中的因果关系推断。针对离散数据中存在的间接原因因素对基于加性噪声模型的因果关系推断结果会造成干扰的问题,结合了结构学习方法和基于加性噪声模型的泛化因果关系推断模型,构建了两步式的泛化因果关系推断模型。该模型通过确定目标因素的潜在原因/结果因素,解决了间接原因因素干扰所造成的额外计算复杂度、影响准确率等问题,在低维因果关系推断中比ANMMcD模型更加有效,为高维离散数据中的因果关系推断研究提供了可行的方案。在实例应用中,McDSL模型被应用于股票收益的风险因子分析问题。股票收益风险数据比软件项目风险管理数据包含更多的风险因素(数据包含50个风险因素)和更加复杂的因果关系。实验结果表明McDSL模型找出的风险因素能够表现出市场投资规律,比已发表研究中的多种特征选择算法的收益预测的表现更加优秀。3.将智能算法与McDSL模型中的结构学习过程相结合,提出面向高维复杂的离散数据的启发式泛化因果关系推断(Heuristic Multi-causes Discovery,HMcD)模型,优化泛化因果关系推断过程的计算复杂度。针对数据中加性噪声对因果关系推断过程的影响,采用遗传算法结合泛化因果关系推断方法,构建了启发式泛化因果关系推断模型。该模型结合了遗传算法的全局搜索能力和快速收敛性质,能够在样本数据有误差的情况中,以更少的计算复杂度挖掘出更准确的信息,为高维离散数据中的因果关系推断研究提供了一个崭新的领域。该模型的实例应用采用了药物副作用数据,验证其在高维离散数据中的因果关系推断性能(数据包含1385个风险因素和888种药物)。实验结果表明,HMcD模型能够推断出准确的因果关系,比已有算法基于结构学习的因果关系分析模型(Causality Analysis model based on Structure Learning,CASTLE)找出的更加准确的原因因素,性能表现更优异。综上所述,本文提出和逐步完善基于加性噪声模型的泛化因果关系推断模型,通过理论证明和仿真实验证明模型的性能,并且应用于多个研究领域真实数据挖掘时表现突出,对因果关系领域的研究具有重要的参考价值。