中文新闻文档自动文摘关键技术研究

来源 :杭州师范大学 | 被引量 : 0次 | 上传用户:jiandande
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞快发展,海量的新闻信息充斥着人们的各个方面,人们因此受到了信息过载的困扰,如何将大量而又冗长的新闻信息简明扼要地呈现成为迫切待解决的问题之一。自动文摘技术是解决上述问题的一种核心手段,它能够帮助人们概括新闻文本冗长的内容,并能够快速并准确地获取重要信息,从而提升人们阅读新闻的速度,有效地减少了浏览信息的精力。本文对新闻单文档和多文档自动摘要技术进行了深入研究,主要包含以下工作:(1)针对中文新闻单文档自动文摘任务,本文对文本词语的表示进行了优化。在数据处理的过程中,对Word Embedding融合了额外的特征,分别加入了词语的词性和TF-IDF值,使每个词语的向量表示中具有了多个维度。该方法可充分利用文本的语言特征信息,以提升生成新闻摘要的连贯性。(2)提出基于注意力机制和改进的Sequence-to-Sequence的模型来进行中文新闻单文档自动文摘任务。其中,Encoder采用双向长短时记忆网络和Decoder采用长短时记忆网络改进的模型结构,同时加入Decoder/Pointer机制来解决出现未登录词的问题。经实验表明,本文实验模型在News2016zh数据集上表现得优于其他几组对比实验模型,能够解决传统循环神经网络导致的梯度爆炸和梯度消失的问题。同时,Decoder/Pointer机制能够很好地缓解摘要生成过程中出现未登录词的问题,提升了摘要的可读性。(3)针对中文新闻多文档自动文摘任务,提出基于语义聚类和局部主题匹配的多文档自动文摘方法。该方法利用具有语义环境的词向量通过K-Means聚类新闻文档并从局部主题中提取具有最大信息熵的句子,从而实现新闻多文档摘要的抽取。通过与提取每个新闻文档首句方法Baseline和LDA主题模型下做的多文档摘要对比,证明该方法的有效性。
其他文献
当前,党的十九大提出实施乡村振兴战略的重大历史任务,指明要壮大新型农业经营主体,提升农民专业合作社规范化水平,以推动“三农”工作的进一步提升,为建设现代化经济体系奠定坚实基础。2007年农民专业合作社法实施以来,昭化区农民专业合作社在广元市政府的组织和领导下得到顺利推广并取得一定经验和成果,但调查也发现,目前部分村镇的农民专业合作社发展表面上看似轰轰烈烈,但真正发挥作用的很少,很多村镇现在还处于主
地铁施工工程一般深处地下且环境封闭,其施工过程管理越来越受到各部门的重视。现有的地铁施工过程管理,尤其是施工人员及施工现场环境监测,存在数据采集缺失、人员定位实时性差和管理模式效率低等缺点。针对此问题,本课题设计了地铁站施工环境监测与人员定位系统。通过监测环境温湿度数据,对建筑专业、机电专业的施工进度及工序进行调整;通过监测烟雾含量,及时对封闭空间的作业人员进行疏散,并采取强制通风措施保证生产安全
目的:探析联合使用中药和四联疗法治疗幽门螺旋杆菌相关性十二指肠溃疡的效果。方法:选取2011年10月至2012年10月来我院接受治疗的60例十二指肠溃疡患者,按照1:1的比例将他们
目的:探讨分析应用舒利迭联合孟鲁司特治疗咳嗽变异性哮喘的临床疗效。方法:选取2010年2月~2012年10月间我院收治的咳嗽变异性哮喘患儿194例作为研究对象,将其随机分为对照组(
“平面与平面垂直”是空间垂直关系的重难点内容,也是高考的考查热点,是“转化”“降维”思想,以及“直观想象”“数学抽象”“逻辑推理”三大核心素养的重要体现.本节课主要
目的:观察中西医结合法治疗慢性肺心病急性加重期的疗效,以供参考。方法:以2009年8月~2012年7月我院收治的慢性肺心病急性加重期患者95例为研究对象,随机分组。对照组给予西医