论文部分内容阅读
贝叶斯网(BN)起源于人工智能领域的研究,是一种将概率统计运用于复杂领域进行不确定性推理和数据分析的工具。近年来,贝叶斯网络在很多领域得到广泛运用。在数据挖掘中,也获得了不错的成绩。贝叶斯网络能够得到如此多的关注,其根本原因在于它是概率论和图论相结合的产物,直观清晰,并且可以从先验信息和样本数据中进行学习,适合处理缺值数据,这是其他模型难以做到的。本文重点介绍了贝叶斯网的学习算法。贝叶斯网的学习算法分为参数学习,以及结构学习。直观地说,贝叶斯网的参数学习表明了变量之间的定量关心,而贝叶斯网的结构学习体现了变量之间的定性以及定量关系。本文具体研究内容如下.(1)对贝叶斯网络的研究现状进行了分析,对不确定知识研究历史进行了阐述,并说明了贝叶斯网络之所以能够得到广泛研究的依据。(2)在介绍贝叶斯网络之前,对其所依赖的概率论基础知识以及信息论、图论的相关知识进行简要的介绍。给出了符号表达以及公式基础知识。(3)参数学习分为完整数据集下的参数学习以及数据缺失情况下的参数学习。在完整数据集下的参数学习中,主要介绍了最大似然估计以及贝叶斯估计的方法,并且分别指出了其优缺点;在数据缺失的情况下进行学习时,主要研究了随机缺失的情况,针对这种情况,本文采用的算法是期望优化(expectation maximization)算法,即EM算法。在本文实验中,对最大似然估计以及贝叶斯估计进行了对比,给出了其图形结果,分析了产生这种结果的原因。(4)结构学习分为基于约束的结构学习方法以及基于评分的结构学习方法,本文重点研究了基于评分的结构学习方法。介绍了最优参数似然函数以及贝叶斯评分,并给出了这些评分的计算公式。基于评分的结构学习算法有K2算法,爬山法、SEM算法等。在对K2算法的学习中,本文引入了家族BIC评分函数,给出了基于家族BIC评分的K2算法结构学习的具体实现。