KNN算法的改进及其在自动文本分类中的应用

来源 :福州大学 | 被引量 : 1次 | 上传用户:allonwxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代下,随着互联网的快速发展,在线文档信息迅速增加。Web是当下最为主要的信息库,而文本又是在Web中占有最大份额的信息载体。如何从海量的Web文本信息中提取出用户所需要的信息,成为了当今的一大热门课题。而文本自动分类技术作为其中最为重要和基础的信息处理方法之一,一直以来成为人们广泛关注和研究的热点。K最近邻方法(K-Nearest Neighbor,KNN)以其概念清晰、鲁棒性好、具有较好的准确率和召回率等优点而被沿用至今,同时它被证明是向量空间模型(VSM)下最好的文本分类方法之一。然而KNN算法作为一种懒惰算法也有其不足:第一,当训练样本集过大时,KNN算法的计算开销会过于庞大,效率下降明显;第二,当训练样本集分布不均匀时,很容易出现类偏向现象,使得分类的准确率有所下降。针对以上提出的KNN算法的不足之处,本文的改进目标:一是缩减大训练集的计算开销,二是平衡非均匀样本集产生的类偏斜。首先,对于样本集过大的问题,本文提出改进KNN算法一,即基于类内K-Means聚类的KNN算法(KCKNN)。KCKNN能够通过类内聚簇,然后比较各个簇中心向量与待分类样本的相似度,以相似度高的簇作为该待分类样本的训练样本集合。改进算法可以针对不同的待分类样本选出各个类别中最具代表性的训练样本,从而达到裁剪训练样本集的目的,使得在保证分类准确率基本不变的前提下大幅缩减分类时间。实验表明,改进算法能够在保证分类效果基本不退化的基础上大幅缩减分类的计算开销。其次,对于训练样本集分布不均而出现的类偏斜问题,本文提出改进KNN算法二,即基于类别平均距离和样本与类别样本数量综合考虑的新型决策加权KNN算法(IWKNN)。类别平均距离是指一个训练样本类别内各个样本直接距离的平均值,其隐含样本类别的重要信息;类别样本数量,则反映了该样本被选中的概率的大小。依据上述两个信息点对KNN算法的决策加权进行重新规定,能够有效地降低类偏斜现象的发生,从而提升分类的准确率。实验表明,改进算法能够有效地提升非均匀样本集下分类的准确率。最后总结全文,并对KNN算法在文本自动分类下的应用改进的进一步研究方向进行展望。
其他文献
乔治亚理工学院科学家发现了一种现象,这一现象允许利用交流电“约瑟夫森效应”测量纳米结构的机械运动。这项发现将用于识别纳米粒子机械属性并使之特性化,其中包括具有生物学
随着市场经济的深入发展,石油企业已经步入了科学化、素质化、团队化、技能化的发展时代。在激烈的市场竞争中,提高整体竞争能力是企业发展的必由之路。在企业的人员组成中,
宁国县医院现有职工223人,病床180张。党的十一届三中全会后,该院在治理脏、乱、差,改善服务态度,提高医疗质量等方面取得了长足的进步。1984年至1986年,该院连续三年被评为
向0.26g/L己酸乙酯乙醇溶液(15%)中加入己酸、酒尾,定期测定溶液中己酸乙酯含量变化情况。结果表明,己酸和酒尾均可使低浓度乙醇溶液中己酸乙酯含量上升。与酒尾相比,己酸对
中国科研人员运用纳米材料、等离子体、真空、机电一体化等综合技术,研究成功了可以制造多种金属及其化合物的纳米材料,并且适合于工业化生产的“万能”纳米技术。以这种技术为
交易的普遍性以及人类追求经济利益最大化的本性使得交易制度创新成为人类经济活动的主要内容 ,所出现的交易制度可归结为易货交易制度、货币化交易制度、远期合同交易制度以
新春伊始,《电子元器件应用》编辑部向大家恭贺新春!祝大家工作顺利,生活幸福,新春快乐,阖家安康!2006年第二期《电子元器件应用》为大家奉献下列内容:
建筑行业在我国属于支柱性的行业之一,在整个行业管理过程中,其施工管理是最为核心的环节,施工管理的质量和水平在一定程度上都对工程项目的安全性以及可靠性,还有综合效率等多个
2008年春节前夕,我国南方遭遇了50年一遇的暴风雪天气,百万民工冒着寒风冷雨,聚集在广州火车站地区,苦等数天,盼望挤上回家的火车。那种人潮汹涌、惊心动魄、回家心急的场景令人无
本文分析了目前高职会展专业的现状,从浙江育英职业技术学院会展专业出发,提出高职会展专业的教学管理与实训室建设研究,为高职会展专业建设提供参考建议。