基于深度神经网络的文本自动摘要研究

来源 :哈尔滨工业大学 | 被引量 : 2次 | 上传用户:rachieyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动摘要是人工智能和自然语言处理领域的一个重要任务和研究热点。随着互联网上信息的爆炸式增长,人们对文本自动摘要系统的需求也越来越广泛。越来越多的新场景和新任务对摘要系统都提出了更高的要求,例如搜索引擎、智能音箱和智能手机助理等等。对文本自动摘要领域的持续研究使摘要系统的性能增长到了一个新的高度。摘要系统的构建从基于启发式规则的方法,发展到基于特征工程的统计机器学习方法,再过渡到了近年来基于深度神经网络的方法。其中深度神经网络作为一种新的机器学习技术,其强大的表征学习能力、自动建立输入与输出之间复杂对应关系的能力等优势都给文本自动摘要的研究带来了新的发展契机。然而,现有工作中仍存在着一些亟待解决的研究问题。因此,本文着眼于这些关键问题,基于深度神经网络技术,探索如何更好地进行文本自动摘要任务建模,进而提高摘要系统的性能。具体地,本文以句子摘要和文档摘要为主线,对其中重要性的建模和摘要构建过程这两个核心问题中的四个重要具体问题进行了研究。第一,本文针对生成式句子摘要对输入中的重要信息建模不充分的问题,提出了一种选择性编码机制。对句子摘要任务而言,其目的是将原文中的重要信息选择出来并产生输出摘要。现有序列到序列模型中的注意力机制虽然对重要性起到了隐式建模作用,而未曾显式地对重要信息进行强调与突出。本文提出了一种选择性编码机制,用以对句子摘要任务中对重要信息的选择过程进行建模。具体地,通过本文提出的选择性门控网络,模型可以在读取输入之后根据句子整体的含义对其中每个单词的重要程度进行单独判断。通过这种方法,模型将重要信息选择这一重要的步骤进行了单独建模,从而方便解码器更好、更容易地进行摘要的生成。实验表明,该模型可以提高生成式句子摘要系统的性能,并且能够判断出原文中的重要信息。第二,本文针对现有拷贝机制缺乏对重要片段的抽取能力的问题,提出了一种序列拷贝神经网络模型。带有拷贝机制的序列到序列模型可以从输入句子中拷贝单个单词到输出摘要中。然而,现有的拷贝机制缺乏对重要信息片段的拷贝能力,其对单词进行逐个拷贝的模式会造成模型无法正确进行完整的序列拷贝工作。针对这一问题,本文提出了序列拷贝神经网络模型。该模型的解码模式分为序列拷贝模式和生成模式。在拷贝模式下,该方法通过构建一个拷贝状态向量,进而利用基于指针网络的序列拷贝网络从输入句子中一次性拷贝完整的重要片段到输出摘要当中。在拷贝之后,通过本文提出的Copy Run机制完成对解码器状态的更新,从而使解码器可以在拷贝模式和生成模式之间进行平滑切换。实验表明该模型可以准确地选择并拷贝输入中的重要片段,并且能够完成流畅的单词生成,从而提高了句子摘要系统的性能。第三,本文针对抽取式文档摘要构建过程中存在的非重要信息和冗余信息问题,对其产生原因和程度进行了深入研究,并提出了基于层次化子句建模的文档摘要。现有的抽取式文档摘要工作采用了以整句为抽取单位的模式。然而,该模式存在被抽取出的句子中包含不需要信息或冗余信息的问题。现有的研究工作没有对该问题进行深入且系统性的研究。本文立足于此,采用了定量的统计分析和人工标注的方法对这两个问题进行了研究。结果表明,整句抽取模式确实存在一定程度的前述问题。基于此,本文提出了以子句级单位为基本抽取单位的新模式。该方法将整句中的重要信息和非重要信息分割开来,从而可以解决前述的两个问题。实验表明,本文提出的模型性能有了显著提高,并且系统的输出摘要在不重要信息和冗余信息问题上的表现均优于以整句为抽取单位的基线系统。第四,本文针对抽取式摘要构建过程中的句子打分和选择过程结合不充分的问题,提出了基于句子打分和选择联合模型的文档摘要。现有的抽取式方法的流程是先对输入文档中的句子进行重要性评价(句子打分),后使用选择策略从中挑选句子组成输出摘要(句子选择)。这两个步骤作为两个单独的子任务,在现有的模型中无法互相交互。例如句子选择的过程并不会对句子的打分和建模后的句子表示产生影响,因此也无法互相增益。本文提出了一个句子打分和选择联合模型,该模型将这两个任务结合到一个可以端到端训练的神经网络模型当中。具体地,输入文档中的句子通过一个文档编码器映射为向量表示。接下来,模型不仅基于句子重要性,而且同时考虑当前已选择句子的内容,对候选句子进行相对重要性评分。此外,本文还提出了一个新的损失函数以更好地描述抽取式文本摘要任务中句子间的重要性差别。实验表明,本文提出的联合模型对比分开进行句子打分和选择的模型性能更优,且新的损失函数能够进一步提高摘要系统的性能。本文提出的四种方法旨在解决文本自动摘要中存在的编码过程中词汇重要性的建模问题、解码过程中重要片段的提取问题、避免非重要信息和冗余信息的问题、句子打分和选择的交互问题。针对这些具体问题,本文分别提出了神经网络模型,取得了显著的进展,同时也为未来的文本自动摘要研究提供了新的视角。
其他文献
各行政公署,各省辖市人民政府,各县(市、区)人民政府,省政府各部门:现将省教委、省计委《关于做好1999年普通高等教育扩大招生工作的意见》批转给你们,请认真贯彻执行。
针对于桥水力发电厂水轮发电机组油系统积水的故障分析,采用机组退行运行,更换油系统筹措施,使油又达到了使用要求。
浙江省龙泉市李皮下水电站(2×1600kW)的季山头引水坝,采用空心透水坝设计,有利于水且节省进水闸室和排砂闸等工程费用,文中叙述了该坝的设计和稳定计算。
江西省人民政府令第70号《江西省船舶建造、监督检验管理规定》已经1998年1月9日省人民政府第80次常务会议讨论通过,现予发布施行。省长舒圣佑一九九八年二月十日
随着人工智能与机器视觉技术的快速发展,多场景、跨域交叉应用成为智能化目标识别算法发展的新趋势。由于应用场景的多样性,难以为每一个全新的场景采集并标注足量的训练样本
对于鸣禽而言,鸟类鸣叫是鸟类实现种间及种内信息传递和个体识别的重要手段,在其生命活动中发挥至关重要的作用。如今各国学者对鸟声的研究更加广泛,从鸟类鸣声结构、鸟声功
我们检测了肝硬变患者和正常人外周血单个核细胞(PBMC)经PHA诱生产生的白细胞介素-2(IL-2)和γ-干扰素(IFN-γ)活性,分析其改变及相互间关系。
<正> 黄宗忠在《武汉大学学报》(社会科学版)1985年第六期上撰文,系统论述了中国图书馆正在发生和将要发生的种种变革。这些变革是:一、改变“重藏轻用”的观念,把图书馆由封闭和半封闭系统变为开放性系统。实现这种变革,首先要改变重藏轻用的基本观念,其次要开放图书馆的藏书和设施,再次要加强图书馆物质、信息、能量的交流。二、改变“图书馆是一种单纯的非盈
省委部门机构改革重点是理顺职能关系,精兵简政。省委机关人员编制精简20%,省政府机关人员编制精简48%,政法机关人员编制精简25%。省委、省政府工作部门的领导职数一般为2至4