论文部分内容阅读
在连续值分类问题中,对于基于概率密度估计的朴素贝叶斯分类器而言,往往采用多个正态分布概率密度函数的叠加去拟合连续值属性变量的真实概率密度函数,从而相应的类条件概率计算也是以多个正态分布概率密度函数值的加和来完成的。当确定新样本的类别标签时,如果新样本与训练集合中某个样本点距离大于某阈值时,那么,此训练样本在确定新样本类别的过程中的作用将会被忽略,即训练样本的信息会被丢失。为了弥补这一缺陷,本文提出了一种基于定邻域概率的朴素贝叶斯分类算法(Fixed Neighborhood Based Native Bayesian Classifier-FNNBC),试图将定积分的概念扩展到每一个正态分布概率密度函数中,即使用积分值的加和,也就是定邻域概率的加和表示类条件概率。在实验部分,我们分别在人工数据集和UCI标准数据集上对FNNBC算法进行了验证,最终的实验结果表明,在人工数据集及大多数UCI标准数据集上,在时间复杂度没有显著增加的前提下,FNNBC算法比现有的处理连续值属性的朴素贝叶斯算法拥有更高的分类正确率。