论文部分内容阅读
贝叶斯网络是概率论与图论相结合的一种图模型结构,在不确定性知识表达和推理方面具有显著而独特的优势,并已成功的应用于机器学习、人工智能、数据挖掘与预测等多个领域.然而,随着数据维数的不断增大,网络节点数目随之增多.贝叶斯网络结构的构建与进一步研究仅依靠专家的领域知识以及已有学习算法都显得极其艰难.因此,研究贝叶斯网络结构的学习成为各领域的热点.其次,数据挖掘非常有力的工具之一分类器也引起了人们的重视,然而属性选择对于分类器的研究起着至关重要的作用.但是数据维数的增大,使得属性选择空间变大,因此给经典属性选择方法提出了新挑战.针对较高维数的数据进行分类器学习与局部学习贝叶斯网络结构等问题,可通过马尔科夫毯的学习与研究予以解决.本文首先对马尔科夫毯的学习进行深入探讨;其次,研究贝叶斯网络结构学习;最后,基于原有算法分别对上述两类问题提出了新算法.具体工作如下:首先,本文在马尔科夫毯学习算法HITON的基础上结合有效属性集提出了EFHITON算法,并且算法在寻求目标变量T的父子节点集过程中及时存储目标变量T与其非父子节点的分割集,储存的集合族为确定T的配偶节点时,可以避免重复独立性检验.其次,提出FEIPC-MB,它主要在原IPC-MB算法的基础上结合互信息知识,调节与目标变量独立性检验候选邻居节点的顺序.此外根据启发式思想改变了条件独立性检验时条件集随机选取机制.其次,高阶条件独立性检验不可靠且检验次数随着网络中节点数目增长呈指数级变化,使得大部分基于约束学习算法对于大型网络结构学习变的非常困难.鉴于此本文基于PC算法提出了新的FEPC算法.主要改进如下:第一,按照各节点邻居集的大小升序排列,对排序后满足独立性检验条件的所有节点按序列依次进行同阶检验,确定每个节点与其邻居节点的独立关系,迭代上述过程;第二,基于互信息理论及意义.对于单个目标变量来说,先检测与其互信息较小的候选邻居节点的独立性关系,在此过程中以与目标变量互信息较大的节点构成条件集.最后,新算法EFHITON、FEIPC-MB和FEPC分别与其相对应的经典算法通过实验仿真结果进行比较.实验结果显示,新算法不但减少了条件独立性检验次数,而且降低了检验时条件集的阶数.故而,新算法具有较低的时间复杂度且在精度以及正确率有明显的优势.