论文部分内容阅读
21世纪是知识经济时代,也是数字化与信息化的时代。人类社会活动离不开信息的获取、处理、开发与利用,信息在人们的生活、服务和生产中发挥着日益重要的作用,信息产业成为推动现代市场经济发展的强大动力。勿庸置疑,信息已经成为促进经济增长和社会进步的一个重要因素,也成为科学发展与科学研究的主旋律。随着各种信息系统、专家系统、数据库和知识库的建立,极大地提高了人类信息管理和科学决策的水平与能力。同时,由于信息和数据量的急剧增加,如何有效地开发和利用这些信息资源成为目前的一项重要课题。在这种社会背景下,数据库技术、人工智能、数理统计和并行计算等技术的相互渗透,使得数据挖掘(Data Mining,DM)技术应运而生,并引起了商业界和学术界的广泛关注。 贝叶斯网络是20世纪80年代提出的不确定性推理方法,它为依赖关系和因果关系提供了一种自然而有效的表达方式。贝叶斯网络具备概率推理能力强、语义清晰、易于理解等技术特点,可以发现数据集中潜在的关系和模式,因此在数据挖掘中显示出独特的优越性。正是基于这一出发点,本文将贝叶斯网络结构学习作为一个核心研究内容,通过系统的理论研究和实验分析,以便建立一套系统的贝叶斯网络结构学习理论和计算方法,为贝叶斯网络的构建和实际应用提供有力的依据。纵观全文,主要研究工作和创新点体现在以下几个方面: 1、首先对贝叶斯网络理论进行了系统深入的分析和论述,描述了贝叶斯网络模型的构成。并用一个警报网络的实例模型对贝叶斯网络的构成及语义进行了详细介绍。总结和归纳出贝叶斯网络与其他方法相比的优势和特点。论述了贝叶斯网络的功能和推理机制,分析和讨论了贝叶斯网络学习的内容和目标,并对贝叶斯网络结构学习中的主要问题进行了深入地剖析。 2、在分析了条件独立性的有关性质和属性的基础上,推导出条件独立性与概率参数之间的几个推论并给予证明。从条件独立性的角度,给出了有向无环图(DAG)的一般性定义。讨论了互信息与条件独立性之间的内在关系,并指出通过计算每对变量的结构互信息,可以确定直接连接的变量,即确定在初始贝叶斯网络中的无向连接。研究了贝叶斯网络中无向图与依赖模型的关系,探讨了从数据集的列联表中进行条件独立性(CI)检验的方法。 3、首次将协同学理论引入到贝叶斯网络结构学习,并建立和形成了一套系统的结构学习理论和方法。论述了协同学的基本概念、原理及其应用,在此基础上,从一个全新的角度,首次提出基于协同学理论的贝叶斯网络结构学习方法,为分析和解决这一项复杂而繁琐的任务提供一个全新的视角和思路。探讨和研究了基于协同学的结构学习机制,把贝叶斯网络结构看成是一个开放的大系统,在专家知识、先验信息、观测数据的相互作用和影响下,通过最大后验概率与最小描述长度的协同计算,得到一个与样本数据最佳匹配的贝叶斯网络结构。这样不仅有利于综合利用相关信息解决计算复杂性的问题,避免主观偏见或数据噪音给结果带来的片面性;而且有机地结合网络结构的简洁性和精确性,使得结构模型与数据实例达到最佳匹配。