基于TF-IDF和余弦相似度的文本分类方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:yiyong6698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。
其他文献
目的观察头孢曲松钠联合地塞米松治疗小儿化脓性脑膜炎的疗效。方法选取2018年2月-2019年2月的化脓性脑膜炎患儿100例,采取随机数表法分为两组,各50例。对照组采用头孢曲松钠
对城镇污水处理厂污泥产生、处理现状及处理技术方法和复杂性的浅析,阐述了污泥处置相关标准、加大对污泥处理处置的监管和执法力度逐步实现污泥的稳定化、减量化、无害化与资
在实施素质教育的改革实践过程中,要实现基础教育由“应试教育”向素质教育转轨,政府在实施素质教育的改革实践中应发挥以下五个方面的重要作用:确认并树立素质教育的思想和观念
水稻株型、抽穗期和产量等是由多基因控制的复杂数量性状。科学家们经过长期努力,已经成功克隆了数百个控制产量、抽穗期和株高的基因,但这些基因在控制产量、抽穗期和株高时的协调作用机制尚不清楚。前人通常利用不同单片段替换系杂交的方法实现目的基因的聚合,并将包含目的基因的聚合系作为遗传材料来研究非等位基因遗传互作及其分子机制。该方法不仅工作量大且所需年限长,严重阻碍了非等位基因遗传互作的研究。CRISPR/
中国制造业省市产业集聚强者恒强、弱者仍弱,整体集聚程度仍为中度;产业间集聚差异程度有减缓趋势,而省市间呈增加趋势;经济发达省市集聚程度较高且集聚趋缓、较发达省市产业