论文部分内容阅读
从数据挖掘的角度上看,分类问题就是要建立相应的分类模型或者分类规则,使用构建好的分类模型将未知分类的样本映射到某一个类中。贝叶斯分类法以其坚实的理论基础和良好的分类性能受到研究人员的青睐。朴素贝叶斯分类的改进算法和贝叶斯网络结构的学习是贝叶斯分类研究的两个方面。本文的重点在于前者。贝叶斯分类就是要在假设空间内寻找具有最大后验概率的类,将未分类的样本归到这个类中。朴素贝叶斯分类器(Navie Bayesian,NB)是一个经典的贝叶斯分类器。NB基于所有的属性是条件独立的。在属性相关性较弱的情况下,NB具有同决策对,神经网络相当的分类性能。在实际NB其严格的条件约束性不能反映属性间的关联性,降低了它的分类精度。许多改进算法是基于放松其条件约束性这一思想的。TAN的每个结点除了类结点作为其父结点外,还允许至多一个非类结点作为其父结点。TAN在许多样本集上具有优于NB的分类性能。每个属性对分类的影响程度是不同的,那么如何表示不同的影响呢?属性相关性可以度量属性间的关联性。
本文介绍了多种不同的相关性分析法。属性相关性有多种应用,如基于属性相关性的属性约简,基于属性相关性的加权模型,基于于属性相关性的属性分组。本文在介绍完属性相关性分析法后,描述了基于这些分析法的加权模型。属性关联性分析的另一个应用是属性分组。将所有的属性根据一定的度量标准将它们划分成强属性集和弱属性集。强属性集中的属性对分类影响较大,相对的弱属性集中的属性对影响程度较小。基于不同的相关性定义产生了多种不同的划分标准。本文在介绍了几种强属性的选择法后,提出了自适应的选择法,基思想是通过不断的调整尝试多种划分最后选择具有最好分类性能的划分。另外,在强属性选择的基础上,提出了在不同的属性集上使用不同的分类算法的混合贝叶斯分类模型。该模型首先使用自适应强属性选择方法划分强属性集和弱属性集,然后对强属性集中的属性使用TAN分类器而对于弱属性集中的属性使用朴素贝叶斯分类器。在本文中还介绍了部分分类模型的实现细则。最后通过对比实验验证改进的混合分类器的分类效果,实验表明该混合分类器在部分样本集上分类性能高于NB和TAN分类器。文章在最后章节还介绍了CRM的相关描述及贝叶斯分类器在CRM的应用。