【摘 要】
:
随着互联网的疾速发展,在线文本信息呈指数式增长,如何准确提取目标文本中的核心词,进而快速表达当前文本主旨变得尤为重要。关键词是能够代表文档内容信息的最小单元,可以简明地表述文档的主旨,成为人们快速掌握文档内容的主要工具。传统的关键词获取方式是由专家对文档进行标注产生;面对如今海量的网络文本,人工标注已经变得不现实。通过设计计算机相应算法对文档实现关键词的自动抽取则逐渐成为研究的热点;同时,关键词自
论文部分内容阅读
随着互联网的疾速发展,在线文本信息呈指数式增长,如何准确提取目标文本中的核心词,进而快速表达当前文本主旨变得尤为重要。关键词是能够代表文档内容信息的最小单元,可以简明地表述文档的主旨,成为人们快速掌握文档内容的主要工具。传统的关键词获取方式是由专家对文档进行标注产生;面对如今海量的网络文本,人工标注已经变得不现实。通过设计计算机相应算法对文档实现关键词的自动抽取则逐渐成为研究的热点;同时,关键词自动抽取技术也广泛应用于搜索引擎、新闻服务等领域,是实现信息检索、文本自动摘要、文本分类、聚类等任务的基础。本文分别提出基于单文档内信息和多文档主题信息的关键词抽取方法,用以提升关键词抽取的准确率和召回率。本文首先描述选题的背景及意义,对关键词抽取的国内外研究现状进行总结,其次简要介绍了本文研究的基础理论:聚类算法、LDA主题模型和PageRank网络模型等;然后基于文档内信息,将文档的词聚类结果作为词图中的节点,构建全连接网络图,进行关键词抽取;该方法一定程度上减少了候选词冗余现象,提升了关键词的主题覆盖度;但受限于文档提供信息不足的缺点,进而提出基于文档主题结构和词图迭代相结合的方法,综合考虑多文档主题信息和单文档内部结构信息,利用主题模型建模结果改变词图结构,实现对关键词更为有效地抽取。最后本文使用爬虫爬取的网络文本数据,对提出的两个模型分别进行了相应的对比实验,验证了本文提出模型的有效性和优越性。具体的创新点有:(1)利用词向量模型将文本转化为向量,通过聚类方法对候选词进行聚类,将聚类结果作为词图的节点,构建全连接网络图对聚类结果进行排序,最后筛选类别中关键词。该方法一定程度上降低了候选关键词的冗余情况,提升了抽取的准确率。(2)综合利用主题模型和文档结构信息,通过主题模型对多文档进行建模,改变词图节点的权重和随机跳转概率,解决单文档信息受限问题,提升了关键词抽取的准确率和召回率。
其他文献
科学技术的前进给人们的需求提供了多样化的选择,人们的思想观念发生了很大的变化,产品设计产品设计越来越注重在不同用户的需求方面。正是在这种背景下,出现了新的产品设计
家校关系是推动教育实施的关键。近年来学术界对家校关系的内涵及重要性、存在的问题及解决策略进行了多方面的研究,并且取得一定的研究成果,对上述的研究成果进行回顾和总结
洱海属澜沧江——湄公河水系,位于云南省大理白族自治州境内,是云南第二大湖泊。洱海地理坐标为东经99度32分—100度27分,北纬25度25分—26度16分。属高原断陷湖泊,湖面海拔
目的利用三日龄大鼠建造缺氧性脑损伤模型,模拟早产儿出生时缺氧,检测海马组织胰岛素受体水平,探究短暂缺氧对三日龄大鼠海马内胰岛素受体表达的影响,从神经保护层面出发为临
杭州位于中国长江三角洲南翼,是浙江省省会城市,是全国十五个副省级城市之一。全市总面积16596平方公里,人口621.58万。其中市区面积3068平方公里,市区常住人口372万,辖8区、
眉县是猕猴桃最佳适生区.在近20年的栽培历程中.猕猴桃产业不断壮大,为农民增收发挥了重要作用.但是.随着部分果园树龄的增大.结果部位外移、树势衰弱的矛盾日益突出,急待解决。眉县
近几年我国乘用车产销量不断的增加,家庭拥有车的需求量逐年增多。作为汽车的销售商,利润的最大化是企业追求的目标,而实现这一目标,优秀的销售员工是其核心因素。本文以沈阳上汽大众4S店为例,将沈阳上汽大众4S店销售人员作为研究对象,运用文献研究方法在总结国内外员工激励相关研究的基础上,界定员工激励的方式、作用等;同时采用实地调查法对沈阳上汽大众4S店销售员工激励情况及存在的问题进行归纳总结并进行分析,总
鸡公山是我国著名的游览避暑胜地之一,历史上与庐山,北戴河、莫干山并称中国四大避暑胜地。早在一千四百年前的北魏时期,郦道元的《水经注》就有文字记载。鸡公山位于河南省
全氟羧酸化合物是一类持久性有机污染物,广泛地存在于自然界环境中,具有抗氧化性,难降解且易在生物体内蓄积的特性。全氟羧酸化合物的降解研究是当前环境领域的热点问题。高级氧化法、电化学方法及不同方法联合使用是目前最常用的有机物降解方法。虽然对于全氟羧酸化合物的降解研究很多,但是迄今为止,人们对于该类化合物的降解机理尚不清楚。无论是高级氧化法还是电化学方法,与全氟羧酸发生降解反应的主要是羟基自由基或者是硫
由于井场电网的功率限制,在修井作业时电网无法满足电动修井机的高功率需求,若采用单一电源补偿则存在诸如蓄电池比功率小,超级电容比能量小等问题。为此本文引入复合电源对电动修井机进行功率补偿,设计了基于复合电源的动力系统方案,并研究了适合修井作业工况的能量管理策略,合理控制系统的能量流向,从而使两种电源优势互补,解决单一电源无法同时满足能量和功率需求的问题。本文通过分析修井作业特性,对比不同的复合电源拓