论文部分内容阅读
近年来,随着深度学习技术的兴起,许多自然语言处理领域任务出现了一种新的解决思路——基于深度神经网络的方法。作为自然语言处理中很重要的工作之一,文本生成旨在生成高质量文本,然而基于传统规则模板的方法生成的文本语句比较呆板,与自然语言相去甚远。随着深度神经网络技术在文本生成任务中的应用,语句变得更加灵活,生成文本质量大幅度提升,带来了文本生成研究热潮。虽然文本生成使用不同领域语料进行训练会形成不同写作风格,但文本内容主题却很难控制。本文按照人们写作习惯,即先构思出主题再进行填充,设计出一套基于关键词的自动短文生成系统用于处理上述问题。但由于该课题较为新颖,目前仍面临库外词、关键词难以表达、文本质量评估三个层面的难点:第一,库外词。由于语料库质量不高,大部分关键词在语料库中出现频率较低。在进行静态词向量表征时,考虑到电脑显存不足,频率低的词汇会被替代,从而在进行词向量训练时,该词汇的文本特征难以被学习到。由于在生成文本过程中,所有信息来源来自于关键词,当过多关键词被替代时,信息来源不足,生成短文显然不符合该课题要求。第二,关键词难以表达。该课题在保证生成短文质量同时,目的在于使关键词或与其相似的词汇出现在生成短文中。但训练样本中关键词在对应短文中出现的位置基本不相同,而常用于文本生成任务的序列到序列模型在对齐任务上存在不足。使得关键词难以被生成短文表达。且在构建训练集时,部分样本长度超过设定阈值,需要被截断,会使被截断文本中关键词信息丢失,进一步增加关键词被短文表达的难度。第三,文本质量评估。目前存在的文本质量评估算法都着重于生成文本与自然语言文本之间差异。然而该课题在保证生成短文质量同时,更需要确认关键词在生成短文中是否被表达,这也是该课题文本质量评估的一部分。针对以上三个方面,本文基于动态词向量、注意力机制等理论,取得了以下创新性成果:(1)基于ELMo的词向量表征方法针对静态词向量中库外词的难题,本文利用动态词向量会随着不同上下文赋予词汇不同向量表征的特征,构建了基于ELMo的编码器,提出了基于提出了基于动态词向量表征方法。语料集中同一组样本中关键词之间存在一定相似度,对于其中词库外关键词,也会根据上下文赋予其一个动态向量后缀,使得该关键词文本特征在一定程度上能被学习到,从而使生成短文信息来源更加充足,生成文本质量更高。模拟实验结果表明,该方法优于静态词向量,但在关键词之间相干性较低时效果不佳。(2)基于双注意力机制的语义对齐方法针对关键词难以被表达的难题,本文通过注意力机制会对不同输入信息关注度不同的特征,构建了基于双注意力序列到序列模型,提出了基于双注意力机制的语义对齐方法。能更加精准确定关键词在已生成短文中参与度,从而获取关键词能为后续短文提供的贡献度,进而使关键词更易于在短文中被表达出来。在相同训练集上与现有效果最好的MTA-LSTM模型相比,该方法生成文本质量评估更高。(3)基于相似度的文本质量评估方法针对符合该课题文本质量评估的问题,本文通过比较生成短文与关键词之间的特征,构建了生成短文与关键词之间相似度模型,提出了基于相似度的文本质量评估方法。实验表明,使用该方法在验证集上筛选出短文的效果都较为符合该课题要求。综上所述,本文提出了基于ELMo的词向量表征方法,提高了词向量表征的准确性,使库外词在一定程度上能够被表征出来;提出了基于双注意力机制的语义对齐方法,提高了关键词在生成短文中被表达的可能性;提出了基于相似度的文本质量评估方法,能更易于筛选出验证集中效果较好的短文。总体提高了基于关键词生成短文质量,达到预期目标。