基于关键词的自动短文生成

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tashon123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的兴起,许多自然语言处理领域任务出现了一种新的解决思路——基于深度神经网络的方法。作为自然语言处理中很重要的工作之一,文本生成旨在生成高质量文本,然而基于传统规则模板的方法生成的文本语句比较呆板,与自然语言相去甚远。随着深度神经网络技术在文本生成任务中的应用,语句变得更加灵活,生成文本质量大幅度提升,带来了文本生成研究热潮。虽然文本生成使用不同领域语料进行训练会形成不同写作风格,但文本内容主题却很难控制。本文按照人们写作习惯,即先构思出主题再进行填充,设计出一套基于关键词的自动短文生成系统用于处理上述问题。但由于该课题较为新颖,目前仍面临库外词、关键词难以表达、文本质量评估三个层面的难点:第一,库外词。由于语料库质量不高,大部分关键词在语料库中出现频率较低。在进行静态词向量表征时,考虑到电脑显存不足,频率低的词汇会被替代,从而在进行词向量训练时,该词汇的文本特征难以被学习到。由于在生成文本过程中,所有信息来源来自于关键词,当过多关键词被替代时,信息来源不足,生成短文显然不符合该课题要求。第二,关键词难以表达。该课题在保证生成短文质量同时,目的在于使关键词或与其相似的词汇出现在生成短文中。但训练样本中关键词在对应短文中出现的位置基本不相同,而常用于文本生成任务的序列到序列模型在对齐任务上存在不足。使得关键词难以被生成短文表达。且在构建训练集时,部分样本长度超过设定阈值,需要被截断,会使被截断文本中关键词信息丢失,进一步增加关键词被短文表达的难度。第三,文本质量评估。目前存在的文本质量评估算法都着重于生成文本与自然语言文本之间差异。然而该课题在保证生成短文质量同时,更需要确认关键词在生成短文中是否被表达,这也是该课题文本质量评估的一部分。针对以上三个方面,本文基于动态词向量、注意力机制等理论,取得了以下创新性成果:(1)基于ELMo的词向量表征方法针对静态词向量中库外词的难题,本文利用动态词向量会随着不同上下文赋予词汇不同向量表征的特征,构建了基于ELMo的编码器,提出了基于提出了基于动态词向量表征方法。语料集中同一组样本中关键词之间存在一定相似度,对于其中词库外关键词,也会根据上下文赋予其一个动态向量后缀,使得该关键词文本特征在一定程度上能被学习到,从而使生成短文信息来源更加充足,生成文本质量更高。模拟实验结果表明,该方法优于静态词向量,但在关键词之间相干性较低时效果不佳。(2)基于双注意力机制的语义对齐方法针对关键词难以被表达的难题,本文通过注意力机制会对不同输入信息关注度不同的特征,构建了基于双注意力序列到序列模型,提出了基于双注意力机制的语义对齐方法。能更加精准确定关键词在已生成短文中参与度,从而获取关键词能为后续短文提供的贡献度,进而使关键词更易于在短文中被表达出来。在相同训练集上与现有效果最好的MTA-LSTM模型相比,该方法生成文本质量评估更高。(3)基于相似度的文本质量评估方法针对符合该课题文本质量评估的问题,本文通过比较生成短文与关键词之间的特征,构建了生成短文与关键词之间相似度模型,提出了基于相似度的文本质量评估方法。实验表明,使用该方法在验证集上筛选出短文的效果都较为符合该课题要求。综上所述,本文提出了基于ELMo的词向量表征方法,提高了词向量表征的准确性,使库外词在一定程度上能够被表征出来;提出了基于双注意力机制的语义对齐方法,提高了关键词在生成短文中被表达的可能性;提出了基于相似度的文本质量评估方法,能更易于筛选出验证集中效果较好的短文。总体提高了基于关键词生成短文质量,达到预期目标。
其他文献
激光光束能量一般呈高斯分布,这种能量非均匀分布的特性会导致材料在局部范围内产生热累积,影响加工效果的一致性,极大的限制了激光技术的发展。光束整形技术可以改变光束的
本文主要研究了Fast-Lipschitz优化。这是2011年,由C.Fischion提出的分布式优化的一种特殊情况。Fast-Lipschitz优化是求解优化问题的一种框架结构,这种框架主要考虑一些特定
在传统、现代乃至于后现代叠加的语境下,媒体在整个社会具有举足轻重的地位。媒介化社会的到来,使得新媒体技术渗透到公众日常生活的各个角落,新媒介正成为连接生活,编制生产
氮肥作为提高粮食作物所必须的营养元素以供给其生长,在提高产量及品质的同时,也因植物不能将氮肥完全吸收,致使土壤盐碱化及水域的富营养化严重。而豆科植物与根瘤菌之间形
聚类分析是当前机器学习的一个研究热点,它旨在将数据集合拆分组成若干有意义的簇(也叫“类”),从而实现对数据的解释和识别。基于图的聚类(本文中也简称为图聚类)是一种较新的聚
化学教材是化学课程改革的核心,是化学课堂教学的重要依据,培养学生化学学科核心素养的重要载体。随着《普通高中化学课程标准(2017版)》的正式颁布,对教育部2019年审定的高中化学新教材的比较分析与实施研究将成为化学教育研究热点。本研究通过分析比较不同版高中化学新教材的内容与特色,以期帮助一线教师了解普通高中化学新教材的特色,选择丰富的素材寓教于学,也便于教材编写者对教材的进一步修订。基于梳理有关教
学位
紫坪铺水库位于龙门山断裂带上中央断裂的岷江拐弯处,这是一个构造变形的特殊部位。紫坪铺水库在2005年9月30日开始蓄水后频发一些密集的小震,这些小震大多集中在水库区域(10
等离子体(plasma)又叫做电浆,是由部分电子被剥夺后的原子及原子团被电离后产生的正负离子组成的离子化气体状物质为了探寻放电等离子体对土壤性质的影响,我们提出了放电等离
MapReduce是一种流行的批处理框架,用于大规模数据集的并行运算,其主要作用是分布式集群节点分析、保持数据局部原则、使数据更加真实有效.本文主要研究h台同类机,reduce任务
物联网既有和传统互联网相似的传输层和应用层,也有特殊的感知层,通过感知层获取数据,再通过传输层到应用层进行处理。正因为有别于传统互联网,其中数据隐私和数据安全就是现