论文部分内容阅读
随着数据库、数据仓库以及Internet 技术的应用发展,使得数据挖掘(Data Mining)和知识发现(Knowledge Discovery)引起了大量学者与专家的关注,越来越显示出其强大的生命力。分类是数据挖掘中一项十分重要的任务,目的是找出分类函数或者分类模型。贝叶斯网络作为一种有效的知识表示方式和概率推理模型,是处理不确定信息的强有力图形决策化分析工具。近年来,基于贝叶斯网络的数据挖掘取得了良好的效果,成为研究热点。本文首先阐述了数据挖掘中分类的主要的方法,介绍、分析了现有的分类方法的定义以及作法,着重介绍了贝叶斯分类技术。贝叶斯网络G=(Bs,Bp)是一个带有概率注释的有向无环图,由网络的拓扑结构Bs和局部概率分布Bp两部分组成。它是以贝叶斯定理、最大后验假设、贝叶斯网络理论为基础的。用于分类的贝叶斯网络叫做贝叶斯分类器。贝叶斯分类器是特殊形式的贝叶斯网络,变量的选取和状态数均已确定,属性结点已知,类结点未知。贝叶斯分类器的学习包括结构学习,参数学习和最大后验概率类结点的推理。由于在大部分的分类系统能够有效地学习是基于这样一个前提:用于训练和测试的数据集是完整的,或者只有很少的特征值是不完整的,而且这些缺失值均匀分布于样本中。事实上,由于各种原因,在许多现实数据库中都存在丢失数据的现象,人们所能收集到的大量信息往往是不完全的(incomplete)或者称之为缺失的(missing)数据。数据的缺失可能与某些属性特征值的状态有关,这时缺失的数据中蕴含着一定的信息量。大部分的分类器在处理这一类的数据集中,将所有的丢失值作为一个单独的值来处理,这势必会影响到分类系统的准确性。因此对于缺失数据的取值或取值趋势进行预测和估计都是非常重要的,在解决实际问题时必须对缺失数据进行正确、有效的处理。贝叶斯网络具有将先验知识和样本数据结合起来进行推理的优点,因此在处理缺失数据问题时,贝叶斯方法是一个强有力的工具。本文主要工作从以下三个方面展开: ⑴归纳简述了贝叶斯网络的理论基础,对当前贝叶斯分类领域的研究成果进行分析,主要是朴素贝叶斯分类器NBC,树扩展朴素贝叶斯分类器TAN 和贝叶斯分类器的增量学习。并对缺失数据的定义,产生的原因以及处理方法进行了分析。⑵结合TAN 和增量学习的思想,本文提出了一种增量的树扩展朴素贝叶斯分类器