论文部分内容阅读
随着近年来网络信息的不断增加,使得高效的检索技术和分类技术成为了人们的迫切需要,于是互联网上的自然语言处理技术得到广泛重视,其中,它的主要的两个应用领域,就是关键词抽取和文本分类技术。本文针对近年来提出的各种常用的文本分类和关键词抽取方法,提出了一些新的改进。传统的关键词抽取技术多是利用统计信息,包括词频、位置信息、TDIDF、N-gram等等,这些方法操作简单,但准确率上并不是很高。比如,在政治类文章里,“宣称”这样的词,当出现各个国家领导人以及外交部发言人等等官员讲话时,就会大量的出现这个词,但是它并不能作为文章关键词,而这样的词在其他类别的文章里出现不多,这样就容易成为TF-IDF方法的关键词结果,所以本文对其进行了语义上过滤,通过挖掘文章的隐含主题,找到其语义上的所属,再进行对候选关键词进行加权排查,消掉与文章主题相似度差的大的候选词,这样就可以消除不恰当的关键词。其次,本文还研究了保留词组与词共现统计的关键词抽取方式,抽取出的词组能够更好的描述文章的信息,抽取出的关键词信息量大,提高了关键词抽取的准确率。准确率和召回率都有了很大的提高。证明改进方法的有效性。最后,本文研究了基于二次分类和CHI统计量的快速文本分类方法。传统的文本分类方法,利用复杂的模型算法进行大量的计算,但在实际应用中,尤其在现在迅猛发展的基于个人手机的移动互联网的领域,往往还需要其反应灵敏快速,于是本文提出了基于二次分类和CHI统计量计算的主题分类的快速文本分类技术。提出了积极的分类算法。然后又提出了二次分类算法,用简单高效的方法排除大部分相关性很小的类别,再用精确的方法在剩下不多的类别中精确分类。在训练阶段对训练语料进行CHI计算,在测试阶段直接使用特征的CHI值,达到了积极分类的效果。经实验,本方法的平均F1值为86.38%,加入二次分类后的平均F1值提升为90.32%,具有实际使用价值。在时间方面比传统方法有了很大的提升。验证了本方法的准确性和高时效性。