论文部分内容阅读
在全球信息化浪潮的推动下,数据挖掘技术的研究和应用迅速发展。如何从海量的数据里“挖掘”或“发现”隐含的、有用的信息和知识,成为各类数据库的应用研究中越来越重要的课题。其中,对研究对象进行分类的判别分析是数据挖掘的一类重要基础理论。所谓判别分析,是指在分类情况明确的条件下,依据目标对象具有的各类属性的特征值判定其所属类型的一类统计学分析方法。判别分析过程是根据一定的判别分析理论,建立判别分析模型,通过对历史数据元组的学习来确定判别分类规则,并利用规则对未知元组进行分类的过程。基于统计学和概率论的贝叶斯理论,是一类重要的判别分析理论,在广泛的应用中表现出了高准确率和高速度。中央地勘基金项目远程调度监管平台(以下简称“地勘基金监管平台”)是为中央地质勘查基金项目监督管理提供即时化、标准化和自动化服务的信息平台。其中,数据分析子系统能够为平台提供强大的数据分析和决策支持功能。贝叶斯判别分析模块能够对地勘基金监管平台的各类数据指标进行分类,便于决策者了解工程进度情况,制定相应的管理策略。本课题的工作内容和研究成果有如下几个方面:1)阐述贝叶斯判别理论体系和文献综述。简要介绍数据挖掘、判别分析和贝叶斯理论等概念,论述基于贝叶斯的判别分析过程的理论基础、基本原理和研究现状。2)介绍各类贝叶斯分类算法。说明朴素贝叶斯分类模型、贝叶斯网络分类模型和树扩展(TAN)贝叶斯模型的算法结构、应用设计和模型建立过程。3)设计判别分析模块程序结构。针对地勘基金项目监管数据和分类科目的特点,制定多种贝叶斯分类模型的应用方式,以及相应的数据预处理、属性约简、误判风险检测等辅助算法策略。4)完成地勘基金项目远程调度监管平台系统数据判别分类模块的设计和实现,并进行系统演示、测试和数据分析工作。