基于神经网络的新闻文本自动摘要研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:dmj_66666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻文本是日常生活中出现最多、数量最大的一种传媒信息载体。随着互联网的快速发展,新闻文本更是呈现爆发式增长趋势。海量新闻文本的出现对用户的阅读提出了巨大挑战,如何利用计算机自动生成新闻文本摘要信息,以协助用户提高阅读效率成为一个重要的研究课题。目前新闻文本自动摘要技术主要分为抽取式和生成式两个方向,前者从文本中抽取一定数量句子作为摘要,主要针对长文本;后者则是“阅读理解”文本后生成摘要,通常面向短文本。两者在不同类型处理对象上各有优势,本文从以上两个方向出发分别展开研究。针对抽取式方法提出了多特征融合模型,以解决文本自动摘要任务中特征挖掘不充分的问题。具体是选取句子的词汇、相对位置、长度和句间相似度4个特征,构建一种基于多特征融合模型的摘要系统。其中,基于句法树的词汇特征充分利用了语法信息,消除了传统方法获取关键词的局限性;相对位置特征通过获取位置的高阶信息对句子进行赋值;长度特征过滤掉过长的句子;基于平滑逆向频率句嵌入方法构造句向量,有效计算了句子间的相似度。针对当前生成式自动摘要模型在解码时对摘要整体语义信息利用不充分的问题,提出一种基于语义对齐的神经网络自动摘要方法。该方法以带注意力、Point机制和Coverage机制的Sequence-to-Sequence模型为基础,在编码器和解码器间加入语义对齐网络,实现文本到摘要的语义信息对齐;然后,将获得的摘要整体语义信息与解码器的词汇预测上下文向量进行拼接,使解码器在预测当前词汇时不仅利用已预测词汇序列的部分语义,而且考虑拟预测摘要的整体语义,提高自动生成文本摘要的质量。分别在NLPCC2017新闻文本自动摘要评测语料和LCSTS大规模新闻文本语料上进行实验,所提方法均提高了摘要生成的质量。但是抽取式摘要在语义连贯性上还有待进一步提升,生成式摘要在解决OOV(out of vocabulary,未登录词)和准确性上还有提高空间。
其他文献
按照《中共中央关于国有企业改革和发展若干重大问题的决定》要求,国有企业要“坚持有进有退,有所为有所不为”。近几年来,在国有资产退出问题上,各地采取了多种方式进行探索
会议
随着经济的发展和人民生活水平的提高,汽车逐步进入千家万户。汽车普及率的上升,也必然会引起环境污染、能源短缺等问题。电动汽车作为一种新型的低碳、环保型交通工具,是解
目的本研究通过观察土茯苓总黄酮(TFSG)对断乳后铅中毒大鼠肾功能、肾氧化损伤指标的影响,探讨TFSG对断乳后铅中毒大鼠肾脏氧化损伤的保护作用;通过观察TFSG对断乳后铅中毒大
目标检测在计算机视觉学科中是一个重要的研究方向,其具有广泛的应用,如文字识别、流水线生产、机器人等。其中,海上船舶目标检测对于无人船自主航行、海洋环境监测、海上事
核燃料循环后端项目是一个知识密集、信息密集的领域,主要是通过化工手段,从核电站乏燃料中提取有用成分以重新加工后返回核电站中继续使用,并将废物最小化处理。其既包含化
随着信息时代的来临以及互联网技术的快速发展和大量普及,互联网已经成为大多数人日常生活中不可或缺的一部分。在互联网上,存在着大量的描述某一个主体的非结构化文本,面对
司法裁判无疑是一项十分复杂且专业化的工作,而人工智能技术的应用能够提高司法裁判活动的效率,保障司法裁判活动的正义。但是,实践中人工智能的应用也产生了一些问题。首先,
土壤墒情指地表土壤含水量的状况,影响着水文过程、气象变化和作物生长等环节。河南是我国的小麦主产区,其生产易受干旱的影响,及时准确地监测土壤墒情对保障粮食生产具有重
高温气冷堆(High Temperature Gas-cooled Reactors,HTGRs)运行过程中会产生碳质粉尘,这些粉尘会对反应堆的运行安全带来不利影响。已有的研究主要集中在物理层面,但基于物理磨
本文利用中分辨率成像光谱仪(Moderate-resolution Imaging Spectroradiometer,简称MODIS)提供的云产品数据和欧洲中心(European Centre for Medium-Range Weather Forecasts,简称ECMWF)提供的大气再分析资料,应用了多元线性回归分析、合成分析和小波分析等方法对北太平洋不同地区低云的季节、年际和次季节变化特