自然语言到SQL语言翻译任务的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:miclleg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言到SQL语句翻译任务是自然语言处理领域的重要子任务之一,旨在将人类的自然语言自动转化为相应的SQL语句。随着数据时代的迅速发展,大量结构化数据得以在网络上不断积累并存储在数据库中,如何让用户无障碍地使用这些结构化数据是一个值得探究的课题,对改善用户与数据库之间的交互方式有很大意义,也是对未来人机交互和代码自动生成的探索。得益于深度学习技术的发展以及大规模人工标注数据集的推出,近年来自然语言到SQL语句翻译任务的热度不断上升。很多研究将其视为和机器翻译类似的序列到序列问题,但是SQL语句特有的结构化特点又使得它与机器翻译有所不同。本文以深度神经网络结构为基础,开展了设计针对SQL特点的语法解析器、强化学习在该任务上的应用以及基于生成对抗网络的模型框架等多方面研究。本文的主要研究工作如下:首先,对基本任务模型进行分析与探索。介绍了自然语言到SQL语句翻译任务的背景和定义,引入说明本课题中涉及的相关技术。然后研究基于各种神经网络的模型构建方法,并对经典模型进行具体实验,分析各相关技术的作用,为后文模型的改进与分析奠定基础。提出现有研究的不足之处和需要解决的问题。然后本文提出基于SQL语法解析器的自然语言到SQL语句翻译模型Pnt-G+Grammar。不同于以往模型止步于将SQL语句分为聚合操作符、选择列、条件子句三部分,本模型将充分利用SQL语法特点,对其进行多粒度的分析,设计了 SQL语法解析器以及相应奖励策略。之后采用强化学习方法将SQL语法解析器的奖励反馈给生成器模型,指导其训练,最后在WikiSQL数据集上进行实验验证,模型提升效果明显。该模型解决了现有模型对于SQL特有语法结构利用的不够充分的问题。最后,进一步提出基于对抗强化学习的自然语言到SQL语句翻译模型Pnt-G+GAN。不同于现有强化学习模型只能对完整SQL语句作评估,该模型可以在生成过程中通过蒙特卡洛搜索对中间状态的未生成完毕语句作评估。其思想是将生成对抗网络与强化学习相结合,用生成对抗网络中判别器的输出直接作为奖励反馈给生成器,采用蒙特卡洛搜索对生成过程中的词语进行采样补全,使得模型可以评估未生成完毕的语句。此外,实验效果还表明之前提出的SQL语法解析器在本框架中同样可以发挥其作用。
其他文献
近年来,深度学习在自然语言处理的多个任务中得到了普遍的应用,机器翻译任务就是其中之一。神经机器翻译虽然已经基本代替了传统的统计机器翻译,取得了接近人类水平的性能,但作为一种数据驱动的方法,在资源稀缺的情况下,其性能表现十分有限。然而,对于实际中的很多语言对,高质量的平行语料是非常稀缺的,因此严重制约了模型的性能。本文旨在探索如何在零资源情况下,充分利用其它可获得资源来训练一个神经机器翻译模型。通过
知识产权人才培养所涉及的内容较为繁杂且常论常新。我国高等学校设立知识产权学位点,通过对学生进行知识产权专业化教育以培养知识产权人才。鉴于学科与专业的区别,知识产权学科是研究生层面知识产权专业的严谨表述。继本科生层面知识产权专业人才培养之后,硕士研究生层面知识产权学科人才培养面临更多复杂的问题。知识产权学科归属多元化、硕士研究生的本科专业类别多样化等问题使硕士研究生层面知识产权学科人才培养变得困难。
“报警泛滥(Alarm Flood)”现象,广泛存在于工业生产领域。在系统化、自动化工业生产过程中,单个异常事件可能引发一系列连锁报警通知。当单位时间内系统产生的报警数量远多于系统终端操作人员实际处理数量时,这类情况可以称为“报警泛滥”现象。在“报警泛滥”情况下,操作员缺乏足够时间以正确处理每个报警通知,当关键性报警通知被误处理时,可能对系统的运行埋下重大隐患。通过设计针对报警序列数据的分析模型,
局部半完全有向图是有向图理论中一类非常重要的图,Bang-Jensen等人刻画了局部半完全有向图的结构、分类以及相关的结论。此后,这类图引起了研究者的广泛兴趣,并得到了许多有意义的结果。控制理论起源于古印度的一种棋盘游戏,后来,五皇后和八皇后问题重新引起了人们的兴趣。1962年,Berge和Ore给出了控制集和控制数的概念。控制理论不但在计算机、通信、网络等方面有着广泛的应用,同时也与有向图中著名
GMR磁场传感器将磁场信号转换为模拟信号,输出信号幅度小,在传输过程中容易受噪声、温湿度、电磁干扰等影响造成信号失真,仪表放大器能有效抑制共模干扰信号、具有低噪声等特点,可以检测GMR磁场传感器的输出信号,成为其信号处理电路的一部分。本文通过分析GMR磁场传感器的基本结构和工作原理,在研究磁场传感器特性的基础上,针对GMR磁场传感器输出信号设计仪表放大器,以实现对弱磁信号的放大。对比分析仪表放大器
普惠金融一词最早于2005年在联合国“国际小额信贷年”宣传活动中被提出,其最初的含义是一个能有效服务社会各个阶层及群体的金融体系。2016年,国务院正式将普惠金融定义为:立足机会平等要求和商业可持续原则,以可负担的成本为有金融服务需求的社会各阶层和群体提供适当、有效的金融服务。而具体到银行的普惠金融业务,则是根据银保监会“两增两控”要求的口径,主要指单户授信1000万元以下(含)的小微企业贷款。对
随着经济的发展和人们生活水平的日益提高,人们追求更高品质生活的需求也在不断提升。在生活领域,消费者对家居产品的整体需求,造成了家居市场的崛起。目前,家居行业各企业市场竞争日趋加剧,但在企业所有的竞争中,人才的竞争尤为激烈,很多企业为找不到合适的人才而苦恼。因此,如何选拔出优秀的人才为企业所用,并发挥其最大的价值,在家居企业现阶段的发展中起着举足轻重的作用。本文的研究对象A公司是伴随着家居行业发展成
汽车产业是国民经济的支柱产业,人工智能、物联网、5G技术、大数据和IT产业的快速发展,推动了传统汽车向智能网联汽车的转变,这些技术广泛应用在自动驾驶、导航和智慧交通等各个领域,实现了车与车、车与云、车与智慧交通设施的信息共享。以智能网联汽车为中心的车联网与IT产业的加速融合,给人们带来便利的同时,也给智能网联汽车带来了新的安全威胁,层出不穷的安全问题给车联网体系的发展前景带来了诸多不确定性,同时,
网格生成是有限元法、有限体积法和有限差分法等数值模拟技术中的前处理步骤。对于复杂的几何模型,网格生成仍然是整个数值模拟过程中的主要性能瓶颈。二维问题中,对于三角形
由于旋转机械故障噪声的复杂性,其空间声场中存在着噪声多,声音反射等一系列问题。从传声器阵列所采集到的信息中很难提取到噪声源所包含的故障信息。而传统的延时求和波束形成对背景噪声的抑制作用较弱,针对这一问题本文利用波束成形对实验设备进行噪声源识别与定位,根据故障点位置信息使用广义旁瓣抵消器算法重构出故障点声信号,通过仿真和实验得出该方法可以有效减少传统波束形成算法产生的信号泄露,提高输出信号的信噪比。