文本自动摘要方法研究

来源 :江苏科技大学 | 被引量 : 1次 | 上传用户:jjjdddlll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
是利用计算机通过各种方法对文本或文本集中能够准确反映原文中心内容的重要信息进行抽取、总结。信息的快速增长使得人们面临信息过载的困扰,面对海量信息往往无法从中快速准确地获取所需信息,而文本自动摘要技术能有效地解决此类问题,利用它可以帮助人们快速有效地从网络上获取高质量的所需信息。目前的文本自动摘要技术生成的摘要质量还有所欠缺,因而如何有效地利用自动文摘技术提取文本摘要是本文的主要研究内容。本文将Text Rank算法应用到文本自动摘要上,提出了一种基于Text Rank的文本自动摘要算法(SW-Text Rank);把LDA主题模型引入到文本摘要的提取过程中,解决了Text Rank算法无法考虑文本主题的问题;利用基于字词的Bi LSTM-CRF模型来识别中文文本中的命名实体,获取有效信息,并对词语节点权重进行调整,从而提高生成的文本摘要的准确性。主要工作内容包含以下两部分:(1)针对Text Rank算法在自动提取中文文本摘要时忽略了词语间的语义相关信息及文本的重要全局信息的问题,提出了SW-Text Rank算法。通过Word2Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终的文本摘要,最后通过实验进行验证。(2)提出了一种结合LDA主题模型与Bi LSTM-CRF命名实体识别模型的文本自动摘要方法。该方法将LDA模型引入到文本摘要的生成过程中,充分考虑LDA模型获取的主题分布,使得生成的文本摘要更加贴近文本主题;利用优化的Bi LSTM-CRF模型来识别文本中的命名实体,从而得到文本中有用的人物信息、地点信息以及发生事件的机构信息,基于此对Text Rank词图中词语节点的权重进行调整;然后利用SW-Text Rank算法生成最终的文本摘要并进行实验验证。
其他文献
电力工业是国民经济的基础产业,进入21世纪,全社会对电力的依赖程度越来越高。全世界电力改革有两个课题,一个是电力体制改革,另一个就是电力需求侧管理,由过去的供应侧管理走向供
【正】 麝香是一味常用的中药,有辛温开窃、活血散结之功效。风湿性关节炎、肌肉疼痛、跌打损伤等疾病使用以麝香为主配制的中药(如麝香止痛膏、麝香虎骨膏等)常可收到良好的
以专用32位浮点RISC微处理器芯片中部分译码的桶式移位器(BS)为例,介绍用VHDL语言对其进行了行为级模拟的方法,讨论了利用VHDL语言进行行为级模拟描述的问题,简要介绍部分译码方式的BS,较详细地给和VHDL语
分模块组织教材,将数学教学内容的选择权交给专业课教师,然后,根据所选内容合理的配置教学时数,这一方面能较好的应对课时减少的实际状况;另一方面,可以根据不同专业岗位对数
本刊讯 9月7日至8日,中国档案报社在全国妇联活动中心召开了档案系统首次"巾帼建功"研讨会,全国人大常委会副委员长、全国妇联主席顾秀莲出席会议,亲切会见了与会代表,并就立
随着科学技术发展,人们生活变得丰富多彩,在此期间, 夜晚所需的白光照明更是至关重要.目前半导体白光照明是航空业运用普遍的照明方法,本项目采用以近紫外光激发三基色荧光粉
深圳5岁男童被高空坠落的玻璃砸伤致死事件发生后,6月17日,山东菏泽郓城县某小区顶楼业主更换铝合金窗户时未做安全防范措施,窗户从19楼掉落,将一名过路行人砸伤;6月19日,南京一名1
报纸