论文部分内容阅读
在当今大数据时代下,随着互联网的快速发展,在线文档信息迅速增加。Web是当下最为主要的信息库,而文本又是在Web中占有最大份额的信息载体。如何从海量的Web文本信息中提取出用户所需要的信息,成为了当今的一大热门课题。而文本自动分类技术作为其中最为重要和基础的信息处理方法之一,一直以来成为人们广泛关注和研究的热点。K最近邻方法(K-Nearest Neighbor,KNN)以其概念清晰、鲁棒性好、具有较好的准确率和召回率等优点而被沿用至今,同时它被证明是向量空间模型(VSM)下最好的文本分类方法之一。然而KNN算法作为一种懒惰算法也有其不足:第一,当训练样本集过大时,KNN算法的计算开销会过于庞大,效率下降明显;第二,当训练样本集分布不均匀时,很容易出现类偏向现象,使得分类的准确率有所下降。针对以上提出的KNN算法的不足之处,本文的改进目标:一是缩减大训练集的计算开销,二是平衡非均匀样本集产生的类偏斜。首先,对于样本集过大的问题,本文提出改进KNN算法一,即基于类内K-Means聚类的KNN算法(KCKNN)。KCKNN能够通过类内聚簇,然后比较各个簇中心向量与待分类样本的相似度,以相似度高的簇作为该待分类样本的训练样本集合。改进算法可以针对不同的待分类样本选出各个类别中最具代表性的训练样本,从而达到裁剪训练样本集的目的,使得在保证分类准确率基本不变的前提下大幅缩减分类时间。实验表明,改进算法能够在保证分类效果基本不退化的基础上大幅缩减分类的计算开销。其次,对于训练样本集分布不均而出现的类偏斜问题,本文提出改进KNN算法二,即基于类别平均距离和样本与类别样本数量综合考虑的新型决策加权KNN算法(IWKNN)。类别平均距离是指一个训练样本类别内各个样本直接距离的平均值,其隐含样本类别的重要信息;类别样本数量,则反映了该样本被选中的概率的大小。依据上述两个信息点对KNN算法的决策加权进行重新规定,能够有效地降低类偏斜现象的发生,从而提升分类的准确率。实验表明,改进算法能够有效地提升非均匀样本集下分类的准确率。最后总结全文,并对KNN算法在文本自动分类下的应用改进的进一步研究方向进行展望。