论文部分内容阅读
贝叶斯网络是一种图形知识表示工具,它描述变量之间的条件独立关系以及变量的联合概率分布情况。给定网络结构时,人们可以在某些变量被观察到的情况下通过概率推理来预测其他变量可能出现的结果。由于贝叶斯网络在概率推理上表现出很好的性能,它在人工智能的不确定领域广受欢迎,且被广泛应用于诊断系统、分类系统、信息检索等。
目前已有的贝叶斯网络结构学习算法可被分为两大主要类别:依赖分析方法和评分.搜索方法。在依赖分析方法中,根据依赖测试的结果来构建相应的网络结构。在评分一搜索方法中,采用特定的评分标准为各候选网络结构打分,然后通过某种搜索策略找出分数最好的那个网络结构,因此在该方法中学习问题可被转化为搜索问题。遗憾的是,这两种方法都各有缺点。对依赖分析方法而言,在最坏情况下,可能需要执行指数级次依赖测试。对评分-搜索方法而言,由于搜索空间太大,因此有些算法采用贪婪爬山法作为搜索策略而使得整个算法很容易陷于局部最优解。演化算法具有全局搜索能力,因此被越来越多的用于贝叶斯网络结构的学习策略。有些研究者把依赖分析方法和评分.搜索方法结合在一起,根据依赖测试的结果减小搜索空间,从而提到整个算法的效率。目前已有的实验结果表明这种混合算法性能优于大多数传统算法。
然而,在实际应用中,数据库的记录中可能含有空缺值,从而使得贝叶斯网络结构的学习问题变得更加复杂:不能直接从数据库中计算候选网络的分数及统计量;可分解的评分准则也不再适用。通常,人们可能丢掉含有空缺值的记录,或者用某些值来代替空缺值(例如,用该变量的其他已观察到的值的平均值来填充)。前一种方法可能造成信息的丢失,而后一种方法可能改变数据的分布。
1997年Friedman等人提出Structural Expectation-Maximization(SEM)算法,用统计量的期望值代替统计量本身,从而近似计算候选网络的分数。后来的研究者也在他们的基础上提山了很多SEM算法的变种。但目前很多SEM算法采用爬山法作为搜索策略,容易使算法陷于局部最优解。Myers等人将GA直接用于从不完整数据中学习贝叶斯网络,网络结构和空缺值都参与演化。但是,它的搜索空间不仅包括网络结构搜索空间,还包括空缺值的搜索空间,再加上在为空缺值选择可填充值时所用到的遗传算子随机性太强,因此整个算法的效率和收敛性受到很人影响。Tian等人曾将GA与EM相结合,用于从含有隐含变量的数据库中学习贝叶斯网络结构。
本论文中提出了一种新的SEM算法。它应用一种混合演化算法作为搜索策略。首先执行EM算法,对选出的当前最好的网络结构进行参数优化。再根据当前最好的网络结构及其参数值来填充数据库中的空缺值。然后执行混合演化算法找到新的当前最优网络结构。这三个步骤重复迭代直至算法停止。论文中所用的实验数据产生自3个benchmark贝叶斯网络结构图,在这些数据上的实验结果表明文中提出的新算法性能优于有些已有算法。 本文在第一章介绍了论文的选题及其研究意义、选题的国内外研究现状、以及本论文的主要研究内容。然后在第二章中先概述了演化算法技术,内容包括演化计算的起源、算法思想、基本分类,然后简单介绍了遗传算法和演化程序设计。第三章简要介绍了贝叶斯定理、贝叶斯网络的基本知识和贝叶斯网络的几大优点,并概述了贝叶斯学习问题。第四章回顾了在完整数据库上学习贝叶斯网络结构的主要技术,然后重点介绍了一种新颖、高效的hybrid Evolutionary Programming算法。第五章是本文的主要工作,首先分别介绍了现有的几个基于不完整数据的参数学习算法和网络结构学习算法,分析了它们的优缺点,然后提出了一种新的基于混合演化算法从不完整数据上学习贝叶斯网络结构的方法,并通过试验结果说明了该方法与现有方法相比的优势和缺点。在第六章,总结了论文的主要工作和后续工作。