多策略关键词抽取及快速文本主题分类研究

来源 :东北大学 | 被引量 : 5次 | 上传用户:txzhang50
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来网络信息的不断增加,使得高效的检索技术和分类技术成为了人们的迫切需要,于是互联网上的自然语言处理技术得到广泛重视,其中,它的主要的两个应用领域,就是关键词抽取和文本分类技术。本文针对近年来提出的各种常用的文本分类和关键词抽取方法,提出了一些新的改进。传统的关键词抽取技术多是利用统计信息,包括词频、位置信息、TDIDF、N-gram等等,这些方法操作简单,但准确率上并不是很高。比如,在政治类文章里,“宣称”这样的词,当出现各个国家领导人以及外交部发言人等等官员讲话时,就会大量的出现这个词,但是它并不能作为文章关键词,而这样的词在其他类别的文章里出现不多,这样就容易成为TF-IDF方法的关键词结果,所以本文对其进行了语义上过滤,通过挖掘文章的隐含主题,找到其语义上的所属,再进行对候选关键词进行加权排查,消掉与文章主题相似度差的大的候选词,这样就可以消除不恰当的关键词。其次,本文还研究了保留词组与词共现统计的关键词抽取方式,抽取出的词组能够更好的描述文章的信息,抽取出的关键词信息量大,提高了关键词抽取的准确率。准确率和召回率都有了很大的提高。证明改进方法的有效性。最后,本文研究了基于二次分类和CHI统计量的快速文本分类方法。传统的文本分类方法,利用复杂的模型算法进行大量的计算,但在实际应用中,尤其在现在迅猛发展的基于个人手机的移动互联网的领域,往往还需要其反应灵敏快速,于是本文提出了基于二次分类和CHI统计量计算的主题分类的快速文本分类技术。提出了积极的分类算法。然后又提出了二次分类算法,用简单高效的方法排除大部分相关性很小的类别,再用精确的方法在剩下不多的类别中精确分类。在训练阶段对训练语料进行CHI计算,在测试阶段直接使用特征的CHI值,达到了积极分类的效果。经实验,本方法的平均F1值为86.38%,加入二次分类后的平均F1值提升为90.32%,具有实际使用价值。在时间方面比传统方法有了很大的提升。验证了本方法的准确性和高时效性。
其他文献
[目的]探讨健康教育在急诊留观病人中的应用效果。[方法]针对100例急诊留观病人的不同疾病,采取有目的性的健康教育形式进行持续健康教育。[结果]对留观病人及其家属实施健康
传统手工技艺类非物质文化遗产是指手工艺人纯手工或者利用一定工具手工制作出的,具有实用性、创造性和观赏性且被人们视为文化遗产的技艺以及制作出来的产品。它在非物质文
作为世界非物质文化遗产项目的古琴艺术,一方面要保护和传承好历史留给我们的丰富财产,将三千多首琴曲进行有效整理和挖掘,这是大家共同的责任;另一方面,音乐艺术作为人类文
随着互联网的发展,海量的信息涌向网络。我们需要用“大数据”来表示需要同时进行批量处理或分析的种类繁多的大量数据集,数据的计量单位从TB发展到PB甚至到DB,处理数据的速
<正> 伟大领袖毛主席最近指出:“《水浒》这部书,好就好在投降。做反面教材,使人民都知道投降派。”今天,我们用马克思主义关于阶级分析的观点,去剖析《水浒》中的主人公宋江
目的运用心理护理、专科护理、并发症的护理等措施,控制重型肝炎的发生发展。方法采取心理护理、饮食护理、生活护理、并发症护理。结果运用各种有效的护理措施,有效地减少患
1 临床资料
在Web2.0、Web3.0以及云计算等新技术的推动下,高校数字图书馆建设面临着前所未有的机遇,但对印刷作品的大规模数字化利用,也伴随着一定的版权风险。以美国高校数字图书馆联
翻译目的论是翻译一种翻译理论模式,具有目的性,连贯性,忠实性原则。编译是编辑和翻译,根据原文意义采取意义翻译进行文化转换和信息传达。翻译公司简介等富有民族文化和诗情
目的探讨护理标识在手术室护理风险管理中的应用效果。方法选取2014年2月至2015年2月我院门诊手术室收治的手术治疗患者374例作为本次研究的对象,将患者随机分为对照组与观察