基于外在信息的关键词抽取问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wangaimin143074
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词抽取是文本挖掘领域里一个重要的研究方向,目的在于能够快速便捷的为用户提供准确、简洁、全面的文本主题信息。那么关键词抽取方法的研究就显得尤为重要。   针对如何优化关键词抽取方法的问题,本文首先分析了当前几种流行通用的算法,分析了其存在的问题,并验证了无监督的关键词抽取方法--TextRank算法的有效性,接着本文对实验结果进行分析,在此基础上本文进一步研究了如何有效利用外在信息,提出了基于外在信息的关键词抽取模型,进一步提升关键词抽取性能。具体来说,本文的主要研究内容有以下几个方面:   本文介绍了TextRank方法的算法原理及流程,并同当前流行的基于监督的关键词抽取方法进行了简单的实验对比,验证了TextRank算法具有很好的性能。本文对实验结果进行分析,总结出TextRank算法的不足,提出了基于外在信息的关键词抽取模型,在基于外在信息关键词抽取模型中,关键词抽取被分为两个阶段,第一个阶段是外在信息的构建,本文利用了当前流行的文本相似度量方法,分别从基于统计特征和语义特征两个方面来构建外在信息;第二个阶段是关键词抽取阶段,本文将第一阶段的外在信息融入到TextRank算法中,构建了基于外在信息的关键词抽取模型,并给出实验结果,通过对实验结果进行对比分析,证明了该模型进一步提升了关键词抽取的性能。   本文进一步分析了实验结果存在的问题,对外在信息模型进行进一步优化,首先在候选词提取处理上,本文利用聚类方法将描述不同主题的候选词划分到对应的主题集合中,然后利用外在信息模型进行关键词抽取,对抽取结果按照聚类结果进行划分,最后选取每一类别中评分最高的候选词作为中心关键词;接着我们对词包评分的计算进一步优化,对表述同一主题的词组进行整合,最后给出实验结果,对外在信息模型的优化进一步提升了该模型的性能,同时本文引入文本聚类的方法对该模型进行扩展。最后本文将该模型应用到科技论文的关键词抽取任务中,取得了不错的效果。  
其他文献
数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,
数字多媒体数据极易在网络上复制、伪造、传播,数据的版权验证保护问题随之凸显出来。数字水印技术因成为解决这一问题的有效方案而受到广泛关注。但是目前大多数水印算法是嵌
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓
随着多模态融合识别技术的飞速发展,唇读技术作为模式识别领域中的热点问题得以关注。唇读技术与指纹识别、虹膜识别、视网膜识别等相比,具有更加直接、便捷、适时的特点。唇读
近年来,skyline查询在多目标决策、数据挖掘、数据库可视化等方面得到广泛应用。然而在高维空间环境下,skyline查询因为返回的结果集过大而不能提供有用的信息。因此,学术界提出