论文部分内容阅读
样本分类是数据挖掘一项非常重要的任务,在众多分类方法和理论中,贝叶斯分类方法具有坚实的统计理论基础,其简单形式是朴素贝叶斯方法(NBC模型),由于具有简单快速的计算过程及泛化能力强等优点,NBC模型得到了广泛应用。本文着重研究基于连续型数据的朴素贝叶斯分类器,探讨基于属性加权及增量学习的改进方法。
在属性加权改进方法上,本文引进Fisher判别分析理论定义各属性的分类权重,提出了Fisher加权朴素贝叶斯分类器(FWNBC模型),通过实验分析表明FWNBC模型在一定程度上提高了朴素贝叶斯分类器的准确率。
在增量学习方法上,由于朴素贝叶斯对数据作高斯分布假设,本文首先应用有限混合模型思想分析分类器的参数求解过程实质上是高斯混合模型的参数估计过程。接着讨论EM算法在高斯混合模型参数估计问题上的应用,提出增加未标注训练样本的结合EM算法的朴素贝叶斯分类器(EMNBC模型)。实验表明当数据对朴素贝叶斯有较好的类可分性时,EMNBC模型可以明显地提高参数估计精确性和分类准确率。
当数据的类可分性较差时,本文将传统NBC模型与EMNBC模型通过线性组合设计组合EMNBC模型与加权组合EMNBC模型,并用实验表明组合模型有相对稳定的表现,准确率较传统NBC模型有一定提升,加权后的组合EMNBC模型能使准确率有进一步提升。