面向结构化数据的文本生成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：YSCX0825

【摘要】

：

面向结构化数据的文本生成技术是自然语言生成领域最前沿的研究任务之一,旨在给定结构化数据,生成描述数据的相应文本。随着社会信息化的不断普及,互联网数据呈爆炸式增长,撰

【作者】

：

陈昱宇

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

结构化数据预训练数据推理强化学习知识蒸馏

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面向结构化数据的文本生成技术是自然语言生成领域最前沿的研究任务之一,旨在给定结构化数据,生成描述数据的相应文本。随着社会信息化的不断普及,互联网数据呈爆炸式增长,撰写相应的文本需要耗费大量时间人力,而面向结构化数据的文本生成技术则能有效的提高产能,提升效率。但是,目前面向结构化数据的文本生成技术研究较少,成果落地不足。因此开展面向结构化数据的文本生成技术研究具有极大的研究价值和实际意义。本文围绕面向结构化数据的文本生成技术这一课题,开展了三个子课题的研究。基于数字表示预训练的数据到文本生成技术模块,为了赋予数字更好的区别于文字的表示,开展了面向结构化数据的文本生成技术的特性研究,提出了随机遮蔽部分数据,要求模型生成计算该数据的等式,从而还原被遮蔽的数据的预训练任务,有效提升了模型对于数据本身的常识、逻辑和文法信息建模的能力,实验效果明显。基于数字拓展与推理的数据到文本生成技术模块为了进一步提升模型的数字拓展和推理能力,通过引入多任务学习机制,在原有的编码器-解码器模型中增加了推理数字的等式解码器,将其嵌入原有的(文本)解码器中,并通过设立推理按钮来进行触发。当模型生成文本的过程中,如果需要推理当前数字,则触发推理按钮,进入等式解码器,用生成的等式计算相应的结果返回文本解码器。同时,通过引入强化学习根据已有的数字特征趋势进行探索和奖励,有效的提升了数字的准确率。基于知识蒸馏的数据到文本生成技术模块为了提升模型对于重点数据的识别和选择能力,提出了基于知识蒸馏的对抗模型。在模型的设计中,在被蒸馏的“教师-网络”中,显著性的对每个数据增加了是否出现在生成文本中的标签,将以三元组形式表示的表格数据变成了四元组,引入了判别器来指导知识蒸馏,来引导“学生-网络”向“教师-网络”学习选择重点数据的编码能力。通过知识蒸馏,使得“学生-网络”提升了对重点数据的选择能力,有效的提升了生成文本的质量。

其他文献

一种大孔径直线阵非等间距稀疏布阵方法

直线阵具有广泛的用途,如拖曳线列阵声纳、部分舷侧阵声纳、岸基声纳等均用到了直线阵的布阵方式。本文提出了一种基于栅瓣抑制的大孔径直线阵稀疏布阵方法,通过对不同稀疏等

会议

直线阵稀疏布阵波束形成

亚太地区部分国家“假新闻”传播现状扫描

香港大学新闻及传媒研究中心于今年3月发布了一份名为“亚太地区信息混乱概览”的研究报告,关注的是亚太地区部分国家虚假信息的现状。~①有关“假新闻”的研究一直是各界关

期刊

假新闻研究发现传播现状印度尼西亚Facebook社交媒体事实核查亚太地区

教育在经济社会协调发展中的作用

随着知识经济时代的到来,社会和经济协调发展所带来的繁荣比以前任何时候都更加依赖于教育,教育对社会经济协调发展的作用也越发重要和明显。文章认为,教育不但关系着我国在

期刊

教育经济协调发展

课例:方程的根与函数的零点

<正>1授课背景深圳市直属学校名师工作室于2017年11月1日在深圳市第二实验学校联合举办了"核心素养教育环境下青年数学教师专业成长研讨会",来自三个名师工作室、覆盖全市十

期刊

方程的根函数零点

思品教学设计要强化四种“意识”

教学设计是课堂教学实施的方案。当前初中思品课堂存在的问题反映在教学设计上，通常表现为：不明学情，以致目标不清，教学方式失灵，教学内容取舍失当；不会分解教学内容要素，以致课堂教

期刊

思品教学教学设计弘扬和培育交通规则人教版时代性活动化

测井技术发展回顾与展望

本文综述了国内外测井技术发展历程,论述了我国测井技术现状和与国外测井技术的差距,特别指出我国石油测井"十五"期间所取得的重大技术成就,最后展望了"十一五"期闻我国测井

会议

中国石油测井技术发展历程发展重点

变味蛋白神秘果素基因克隆及转紫甘薯研究

神秘果素是非洲植物神秘果果实中的一种能够改变人的味觉、将酸味变成甜味的变味蛋白,可用于糖尿病与肥胖病等病人的食品和辅助治疗糖尿病。神秘果果实小、产量低、神秘果素

会议

神秘果素基因克隆原核表达紫心甘薯转基因

面向结构化数据的文本生成技术研究

其他学术论文