论文部分内容阅读
面向结构化数据的文本生成技术是自然语言生成领域最前沿的研究任务之一,旨在给定结构化数据,生成描述数据的相应文本。随着社会信息化的不断普及,互联网数据呈爆炸式增长,撰写相应的文本需要耗费大量时间人力,而面向结构化数据的文本生成技术则能有效的提高产能,提升效率。但是,目前面向结构化数据的文本生成技术研究较少,成果落地不足。因此开展面向结构化数据的文本生成技术研究具有极大的研究价值和实际意义。本文围绕面向结构化数据的文本生成技术这一课题,开展了三个子课题的研究。基于数字表示预训练的数据到文本生成技术模块,为了赋予数字更好的区别于文字的表示,开展了面向结构化数据的文本生成技术的特性研究,提出了随机遮蔽部分数据,要求模型生成计算该数据的等式,从而还原被遮蔽的数据的预训练任务,有效提升了模型对于数据本身的常识、逻辑和文法信息建模的能力,实验效果明显。基于数字拓展与推理的数据到文本生成技术模块为了进一步提升模型的数字拓展和推理能力,通过引入多任务学习机制,在原有的编码器-解码器模型中增加了推理数字的等式解码器,将其嵌入原有的(文本)解码器中,并通过设立推理按钮来进行触发。当模型生成文本的过程中,如果需要推理当前数字,则触发推理按钮,进入等式解码器,用生成的等式计算相应的结果返回文本解码器。同时,通过引入强化学习根据已有的数字特征趋势进行探索和奖励,有效的提升了数字的准确率。基于知识蒸馏的数据到文本生成技术模块为了提升模型对于重点数据的识别和选择能力,提出了基于知识蒸馏的对抗模型。在模型的设计中,在被蒸馏的“教师-网络”中,显著性的对每个数据增加了是否出现在生成文本中的标签,将以三元组形式表示的表格数据变成了四元组,引入了判别器来指导知识蒸馏,来引导“学生-网络”向“教师-网络”学习选择重点数据的编码能力。通过知识蒸馏,使得“学生-网络”提升了对重点数据的选择能力,有效的提升了生成文本的质量。