从不完整数据中学习贝叶斯网络的一种新型混合演化算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:zxtx001209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯网络是一种图形知识表示工具,它描述变量之间的条件独立关系以及变量的联合概率分布情况。给定网络结构时,人们可以在某些变量被观察到的情况下通过概率推理来预测其他变量可能出现的结果。由于贝叶斯网络在概率推理上表现出很好的性能,它在人工智能的不确定领域广受欢迎,且被广泛应用于诊断系统、分类系统、信息检索等。 目前已有的贝叶斯网络结构学习算法可被分为两大主要类别:依赖分析方法和评分.搜索方法。在依赖分析方法中,根据依赖测试的结果来构建相应的网络结构。在评分一搜索方法中,采用特定的评分标准为各候选网络结构打分,然后通过某种搜索策略找出分数最好的那个网络结构,因此在该方法中学习问题可被转化为搜索问题。遗憾的是,这两种方法都各有缺点。对依赖分析方法而言,在最坏情况下,可能需要执行指数级次依赖测试。对评分-搜索方法而言,由于搜索空间太大,因此有些算法采用贪婪爬山法作为搜索策略而使得整个算法很容易陷于局部最优解。演化算法具有全局搜索能力,因此被越来越多的用于贝叶斯网络结构的学习策略。有些研究者把依赖分析方法和评分.搜索方法结合在一起,根据依赖测试的结果减小搜索空间,从而提到整个算法的效率。目前已有的实验结果表明这种混合算法性能优于大多数传统算法。 然而,在实际应用中,数据库的记录中可能含有空缺值,从而使得贝叶斯网络结构的学习问题变得更加复杂:不能直接从数据库中计算候选网络的分数及统计量;可分解的评分准则也不再适用。通常,人们可能丢掉含有空缺值的记录,或者用某些值来代替空缺值(例如,用该变量的其他已观察到的值的平均值来填充)。前一种方法可能造成信息的丢失,而后一种方法可能改变数据的分布。 1997年Friedman等人提出Structural Expectation-Maximization(SEM)算法,用统计量的期望值代替统计量本身,从而近似计算候选网络的分数。后来的研究者也在他们的基础上提山了很多SEM算法的变种。但目前很多SEM算法采用爬山法作为搜索策略,容易使算法陷于局部最优解。Myers等人将GA直接用于从不完整数据中学习贝叶斯网络,网络结构和空缺值都参与演化。但是,它的搜索空间不仅包括网络结构搜索空间,还包括空缺值的搜索空间,再加上在为空缺值选择可填充值时所用到的遗传算子随机性太强,因此整个算法的效率和收敛性受到很人影响。Tian等人曾将GA与EM相结合,用于从含有隐含变量的数据库中学习贝叶斯网络结构。 本论文中提出了一种新的SEM算法。它应用一种混合演化算法作为搜索策略。首先执行EM算法,对选出的当前最好的网络结构进行参数优化。再根据当前最好的网络结构及其参数值来填充数据库中的空缺值。然后执行混合演化算法找到新的当前最优网络结构。这三个步骤重复迭代直至算法停止。论文中所用的实验数据产生自3个benchmark贝叶斯网络结构图,在这些数据上的实验结果表明文中提出的新算法性能优于有些已有算法。 本文在第一章介绍了论文的选题及其研究意义、选题的国内外研究现状、以及本论文的主要研究内容。然后在第二章中先概述了演化算法技术,内容包括演化计算的起源、算法思想、基本分类,然后简单介绍了遗传算法和演化程序设计。第三章简要介绍了贝叶斯定理、贝叶斯网络的基本知识和贝叶斯网络的几大优点,并概述了贝叶斯学习问题。第四章回顾了在完整数据库上学习贝叶斯网络结构的主要技术,然后重点介绍了一种新颖、高效的hybrid Evolutionary Programming算法。第五章是本文的主要工作,首先分别介绍了现有的几个基于不完整数据的参数学习算法和网络结构学习算法,分析了它们的优缺点,然后提出了一种新的基于混合演化算法从不完整数据上学习贝叶斯网络结构的方法,并通过试验结果说明了该方法与现有方法相比的优势和缺点。在第六章,总结了论文的主要工作和后续工作。
其他文献
学分制是随着现代教育改革而发展起来的一种新型管理模式,在学分制下学生不再局限于学习年限,只需达到毕业学分即可毕业;同时,学生还可根据自己的兴趣爱好对所修课程进行自由选择
随着企业应用规模的不断扩大,企业信息孤岛和应用孤岛现象越来越严重,企业迫切需要对各种信息和应用进行有机集成。为此,在国家“十五”科技攻关项目的支撑下,把MAS技术应用到企
随着信息社会的到来,促使知识发现问世,可以有效解决从海量数据中挖掘知识。数据预处理是知识发现过程的重要组成部分,直接影响到数据挖掘效率和知识模型的质量。研究数据预处理
学位
随着Internet和Web技术的兴起与发展,将Web技术与数据库相结合,开发动态的Web数据库应用己成为当今Web技术研究的热点。本文首先就Web数据库技术的体系结构、访问技术等内容分
在给定曲面上的两点间求沿曲面的最短路径,是理论与实际领域都十分关注的问题。由于自由曲面自身的复杂性,需要找到一种既准确又可靠,并能广泛适用于自由曲面的求取方法。三维曲
随着网络安全事故的增加,网络安全性得到了人们的重视。安全漏洞是造成网络不安全的根源,研究安全漏洞评估技术,是保证网络安全的基础。由于互联网的复杂化和攻击行为的多样
软件构件库是对可复用构件进行管理的基础设施,它为软件复用提供了一套快速、有效的构件查询、管理和维护的机制。软件构件库的管理对象是软件构件,而软件构件之间常常存在着各
随着激光打印机价格的降低,激光打印机市场竞争越来越激烈。然而,高分辨率和新的打印技术意味着更多的内存需求,同时也意味着打印机内存成本的提高。随着打印机控制器组件如机芯
随着Web2.0技术的成熟,社交网络已成为人们沟通交流、传播信息的重要手段,在人们日常生活中发挥着越来越重要的作用。与传统信息传播方式不同,社交网络中人与人之间的关系对信息