贝叶斯网在数据挖掘中的算法运用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wangke777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯网(BN)起源于人工智能领域的研究,是一种将概率统计运用于复杂领域进行不确定性推理和数据分析的工具。近年来,贝叶斯网络在很多领域得到广泛运用。在数据挖掘中,也获得了不错的成绩。贝叶斯网络能够得到如此多的关注,其根本原因在于它是概率论和图论相结合的产物,直观清晰,并且可以从先验信息和样本数据中进行学习,适合处理缺值数据,这是其他模型难以做到的。本文重点介绍了贝叶斯网的学习算法。贝叶斯网的学习算法分为参数学习,以及结构学习。直观地说,贝叶斯网的参数学习表明了变量之间的定量关心,而贝叶斯网的结构学习体现了变量之间的定性以及定量关系。本文具体研究内容如下.(1)对贝叶斯网络的研究现状进行了分析,对不确定知识研究历史进行了阐述,并说明了贝叶斯网络之所以能够得到广泛研究的依据。(2)在介绍贝叶斯网络之前,对其所依赖的概率论基础知识以及信息论、图论的相关知识进行简要的介绍。给出了符号表达以及公式基础知识。(3)参数学习分为完整数据集下的参数学习以及数据缺失情况下的参数学习。在完整数据集下的参数学习中,主要介绍了最大似然估计以及贝叶斯估计的方法,并且分别指出了其优缺点;在数据缺失的情况下进行学习时,主要研究了随机缺失的情况,针对这种情况,本文采用的算法是期望优化(expectation maximization)算法,即EM算法。在本文实验中,对最大似然估计以及贝叶斯估计进行了对比,给出了其图形结果,分析了产生这种结果的原因。(4)结构学习分为基于约束的结构学习方法以及基于评分的结构学习方法,本文重点研究了基于评分的结构学习方法。介绍了最优参数似然函数以及贝叶斯评分,并给出了这些评分的计算公式。基于评分的结构学习算法有K2算法,爬山法、SEM算法等。在对K2算法的学习中,本文引入了家族BIC评分函数,给出了基于家族BIC评分的K2算法结构学习的具体实现。
其他文献
所谓秘密共享,就是将秘密信息分割成多个子秘密分发给团体中的成员,当且仅当特定的多个成员合作时才能恢复出原来的秘密信息,而在其他情况下,和秘密相关的任何信息都不会被泄
人们对高性能计算的需求从来没有停止。然而已经非常完善的指令并行技术受线延迟和功率墙的制约,很难进一步带来性能提升,相反存储墙问题使得访存行为对性能的决定性越来越明显
信息时代高效率快节奏的工作使人们忽视那些看似与正常系统运行关系不大其实贯彻全局的安全工作,终于使得安全工作的匮乏到达了引爆点。近年来的有线网安全事件呈指数级上升,使
信息隐藏是信息安全研究的重要方面之一,而隐写术作为信息隐藏的一个主要分支,越来越受到国内外科研人员的关注。隐写术利用载体中的冗余信息嵌入秘密对象,以此实现秘密信息
随着社会信息化和数字化的发展,特别是数字家庭概念的发展,家庭中各种电器设备、多媒体设备网络化和信息化的加速发展,这些促使多种不同业务在家庭网络中同时呈现,而不同业务对带
基于达尔文进化论的进化算法在求解问题时,可将问题描述成自然界中种群的进化过程,遵循适者生存的机制,通过种群的不断进化,求得最优解或满意解。进化计算的研究较早,发展较
无线传感器网络(简称传感网)很多应用都依赖于节点的位置信息,所以节点定位技术是传感器网络领域中一种非常重要的基础技术。然而传感网一般部署在恶劣的环境中,节点易受到各
如今,数据采集和存储技术的发展使得许多数据库的数据量极其庞大,要从中分析有价值的信息、知识变得越来越困难,而这种分析需求却与同俱增。数据挖掘就是从海量数据中发现那些隐
云计算、大数据、数据中心等新型数据业务对网络服务提出了更多要求:低时延、更高的可用性与保证服务质量的端到端业务调度,其爆炸式增长趋势给光网络的智能化发展带来强大的
科技发展日新月异,越来越多的科学问题涉及到大量数据的处理,对这些数据的处理速度直接影响到科学问题的求解进程。甚至有些科学问题必须要有足够快的数据处理速度才能真实反映