论文部分内容阅读
从网络环境的海量数据中获取新的科学知识、新的规律和决策支持信息是信息时代研究的热点。有效地分析和挖掘广域分布海量数据的知识发现方法是研究工作的核心。贝叶斯网络(BN)结合图论和统计学方面的知识,提供了一种自然的表示因果信息的方法,用于表达随机变量之间复杂的概率不确定性,发现数据间的潜在关系,它在海量数据的知识发现中具有重要的研究意义和广阔的应用前景。本文以贝叶斯网络为基础理论,以重庆市科技攻关重点项目(CSTC,2006AA7024)“三峡库区水环境安全预警平台与科学决策关键技术研究”为应用背景,针对网络环境下的数据智能学习问题,围绕科学决策理论进行基于贝叶斯网络的学习与决策方法研究,从贝叶斯网络学习、贝叶斯网络分类器学习、概率关系模型学习和基于BN的多agent群决策支持系统四方面开展以下研究工作:①分析了贝叶斯网络的建模流程,着重讨论从数据中学习贝叶斯网络结构。通过分析两种经典的结构学习方法(K2和MCMC算法)的基本思想,将两种算法的优点和模型平均的思路结合起来,提出一种改进的贝叶斯网络结构学习算法。仿真实验表明改进算法可以在无先验知识的情况下以较快的收敛速度获得较正确的稳定结构,且不易受初始结构影响,能正确反映节点间的依存关系。该学习算法具有较好的鲁棒性,能为科学决策提供有价值的决策依据,并可以推广于各应用领域的海量数据中进行变量间的相关性分析与建模研究。②在对常见贝叶斯网络分类器分析的基础上,研究将属性变量间聚集的层次关系引入分类器中,从数据中学习属性变量间的层次关系,提出构造层次朴素贝叶斯分类器(SAHNB)的学习算法。算法思路是首先借助节点间的条件互信息值来确定可能聚集节点的范围,然后再通过模拟退火算法来搜索评分较高的模型。通过实验将SAHNB分别同NB、TAN和GBN-SA进行比较,结果表明在多数数据集上SAHNB具有较好的分类效果,并且模型引入的潜在节点可以实现对某些属性节点状态的聚集,能够进行语义解释,从而为决策者提供相应的分类规则。SAHNB分类器模型用于水质预警系统,获得较好的实际应用效果。③针对实际应用问题,结合概率关系模型(PRM)构建的特点,提出建设基于PRM的水体富营养化风险预测模型思路,在这一领域研究中是一种新的尝试。学习基于PRM的水体富营养化风险预测模型,首先根据先验知识构造每个参考变量的候选父节点集,并且利用关系数据库的标准化SQL语言对候选父节点集进行数据预处理,主要包括多集操作、聚集操作、离散化处理等,以减轻启发式搜索评分算法的计算复杂度,然后采用类K2算法的搜索评分方法进行模型结构学习,并且通过构建分类指示器来细分不同蓄水期的水体富营养化风险预测模型。应用分析显示该方法在断面水质富营养化风险分析上可以取得初步成效。④研究多agent技术与贝叶斯网络结合建模的方法。设计了基于贝叶斯网络和效用理论的个体agent结构,研究了反馈控制的双向学习机制;设计了多agent群决策支持系统的五层组织结构和面向决策任务的agents组织过程建摸流程;定义了多agent的协商模型,提出了基于贝叶斯信念模型学习和推理的冲突协商、效用偏好调整和启用外界推荐的协商交互流程。本文所构建的贝叶斯网络学习与决策方法能有效的进行数据挖掘与知识发现,实现科学决策。并通过实际应用验证了方法的可行性。