论文部分内容阅读
数据到文本生成是自然语言处理领域一个重要的研究方向,该任务旨在将结构化的数据生成逻辑清晰,语义通顺的文本。随着社会信息化进程的不断加快,深度学习领域越来越火热,社会开始从传统互联网领域逐步迈向元宇宙概念发展,因此在文本编写方面,人们希望机器也能如同人一般自动编写出高质量文本,保证文本质量的同时大幅度提升效率。但是,目前针对数据到文本生成此类研究较为缺乏,落地成果更是稀少,因此面向该领域进行研究具有极大的实际应用价值。数据到文本生成任务虽然在近些年取得了一定成果,但仍留有问题待解决,例如在庞大的结构化数据中选择重点内容进行描述是一难点,同时生成文本的流畅性和连贯性较差,甚至存在文本重复的情况。因此针对以上问题,本文进行基于深度学习的数据到文本生成研究。首先本文开展对语义匹配的研究,语义使自然语言的灵魂,要想做好生成类任务,则对语义的判断需准确,为了解决句子对间语义信息交互充分的问题,提出了一种基于BERT与密集复合网络的语义匹配模型。在研究语义的基础上,提出了一种基于选择编码与融合语义损失的数据到文本生成方法,解决文本生成过程中难以选择重点内容,出现文本重复等问题,提升文本连贯性。最后,经各种数据的测试,证明本文方法相较于现有模型性能最佳。本文所做的贡献如下:1、提出了一种基于BERT与密集复合网络的语义匹配模型,通过BERT嵌入与复合网络的密集连接,显著提高了文本语义匹配的准确率。首先将句子对输入BERT预训练模型,通过迭代反馈得到精准的词向量表示,进而得到高质量的句子对语义信息。其次,设计了一种密集复合网络,先由Bi-LSTM获得句子对的全局语义信息,然后由Text CNN提取并整合局部语义信息,得到每个句子的关键特征和句子对间的对应关系,并将BERT与Bi-LSTM的隐藏输出与Text CNN的池化输出融合。最后,汇总训练过程中网络之间的关联状态,可以有效防止网络退化和增强模型判断能力。实验结果表明,在社区问题回答(CQA)长文本数据集上,本文方法效果显著,平均提升幅度达到45%,方法与性能均由于强基线模型,主要表现在:(1)采用BERT预训练模型表示词嵌入,不仅对词本身进行了编码表示,同时获得词的位置信息,句子的段落信息,使得句子语义表达更完善,层次更分明。(2)设计以Bi-LSTM与Text CNN构成的密集复合网络,整合句子的序列信息和局部关键语义信息,同时连接前后隐藏层输出与池化层输出,使模型能汇总前后学习状态,增强判断能力。2、提出了一种选择编码并融合语义损失的数据到文本生成方法,通过突出重点内容和降低文本描述信息的冗余度,显著提升了生成文本的质量。首先,设计了一种新的选择网络,以数据记录相关的信息量作为内容重要性的编码依据,并对结果多轮动态迭代,实现精准和全面的重要信息选择。其次,在使用长短期记忆网络(LSTM)解码过程中,设计了一种分层注意力机制,对隐藏层输出中不同实体及其属性赋予动态选择的权重,优化了生成文本的召回率。最后,引入一种计算生成文本与参考文本的语义相似度损失的方法,通过计算两者语义矢量的余弦距离,迭代反馈到训练过程获得关键特征的优化,同时减少描述信息的冗余,提升模型的BLEU性能。实验表明,本文方法在公开数据集ROTOWIRE上进行测试,精确率、召回率及BLEU能达到94.58%、53.72%和17.24,优于现有方法:(1)该方法通过编码层设计的选择网络,可以有效的先一步注意重要词汇,在解码过程中,进一步利用此类词汇参与解码输出。(2)在原对数损失的基础上,引入了语义相似度损失,通过两个损失的联合优化,提升模型对全局语义的掌控能力,从而提升生成文本的流畅性,极大程度上解决文本重复性问题。