基于有监督深度学习的SQL解析关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:mysnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义解析是自然语言处理领域的基础工作及研究热点,被认为是实现机器理解自然语言的关键。近几十年,信息技术高速发展,各个行业积累了海量的数据,这些数据大多以数据库的形式进行存储,数据库也被作为相关应用程序的存储基础。SQL解析是指通过机器自动地将自然语言问题转化为SQL语句,作为一种与数据库交互的解析技术,该技术是语义解析技术中的一个重要分支,可直接用于智能化系统的解决方法,如数据库问答、智能化查询接口等,也可为其他语义解析分支技术提供一定的借鉴参考,具有十分广阔的应用前景和重要的理论研究价值。然而,由于自然语言与SQL语句在表达方式和语法结构上存在差异,SQL解析难度较高,如何准确地将自然语言问题转换为SQL语句尚面临着巨大的挑战。研究有效的SQL解析模型,提升SQL解析精度是自然语言处理和智能系统应用的迫切需求。因此,本文展开了对SQL解析理论和方法的研究。深度学习因其出色的非结构化数据处理能力,是当前自然语言处理领域的核心技术。本文从有监督深度学习的角度出发,对SQL解析技术进行研究,具体研究内容主要包括以下几个方面:(1)在单表SQL解析任务中,基于模板填充的技术方案是当前的优势方案,具有计算资源消耗低、SQL组件顺序不敏感、结果可控性强等优点。这些技术方案将SQL解析任务划分为多个子任务,通过多个子任务对SQL预定义模板的细节内容进行预测填充。关于VALUE抽取子任务,使用字段作为辅助信息对VALUE值进行抽取,由于不同字段的表示向量区分度较弱,无法较好的处理多重VALUE抽取问题,容易产生抽取混乱的现象。针对此问题,本文提出了一种基于多重VALUE从属关系判断的SQL解析模型M-SQL,该模型通过增加额外的VALUE与字段从属关系判断子任务,以克服不同字段的表示向量区分度较弱的缺陷。M-SQL模型在Table QA和Wiki SQL测试集中,分别达到了89.9%、86.5%的综合准确率。(2)在SQL解析任务中,数据库内容的利用具有十分重要的意义,既可以给模型提供更为丰富的辅助信息,也可以帮助模型校正VALUE值。然而,受限于主流SQL解析数据集构建模式、数据隐私等情况,很少有研究人员对数据库内容的利用方式进行研究。本文针对单表SQL解析任务,抛开数据隐私的限制,对数据库内容利用方式展开研究,提出了一种基于数据库内容利用的SQL解析方法D-SQL,该方法由两个模型组成,基于字段强化的SQL解析模型与VALUE语义检索模型。其中,基于字段强化的SQL解析模型重点解决了如何使用数据库内容对字段信息进行强化表示的问题;VALUE语义检索模型重点解决了面向数据库内容的语义检索问题。D-SQL方法在Table QA和Wiki SQL测试集中,分别达到了91.2%、88.7%的综合准确率。(3)在SQL解析任务的实际应用场景中,用户输入的自然语言问题不一定与目标数据库相关。受限于公开数据集构建情况,很少有研究人员在SQL解析任务中对自然语言问题和数据库的相关性进行研究。本文将自然语言问题与数据库的相关性判断,融入SQL解析任务,提出了一种新型的单表SQL解析任务,命名为“基于相关性判断的SQL解析任务”。该任务需要同时解决两个问题,自然语言问题与数据库的相关性判断及SQL语句生成。关于此任务,目前尚未有公开数据集,本文从数据集构建、相关性判断联合模型两个角度,对该任务的解决方案展开研究,提出了一种基于相关性判断的SQL解析模型R-SQL。该模型在基于Table QA和Wiki SQL的构造测试集中,分别达到了83.8%、79.9%的综合性能。(4)在复杂多表SQL解析任务中,以Sequence-to-Sequence为代表的序列生成类技术方案是当前的优势方案,具有较好的复杂嵌套SQL语句解析能力,但存在SQL组件顺序敏感、计算资源依赖较高、计算效率偏低等问题。针对上述问题,本文提出了一种基于桥接填充的复杂多表SQL解析方法B-SQL,该方法由两个模型组成,字段排序模型与基于桥接填充的SQL解析模型。其中,字段排序模型为辅助模型,用于过滤数据库中与自然语言问题相关性较弱的字段,以缩减输入序列长度;基于桥接填充的SQL解析模型为核心模型,用于对复杂多表SQL语句进行解析,同时采用了序列生成技术与模板填充技术。B-SQL方法在Du-SQL测试集中,达到了81.4%的逻辑匹配准确率。
其他文献
基于阵列传感器的辐射源被动定位在雷达、声纳、通信、电子对抗等领域中均具有重要的应用。相对于窄带辐射源信号,宽带辐射源信号更有利于目标检测、参量估计和目标特征提取,在实际中获得了更广泛的应用。然而,与日趋成熟的窄带辐射源定位技术相比,围绕宽带辐射源的定位研究起步较晚,还需要进一步地发展与完善。当前针对宽带辐射源的定位算法主要基于信号的子空间类方法,且算法大多瞄准远场辐射源的定位,忽视了一些特定应用场
学位
低功耗-无人海洋装备长航程、长续航工作的能源供给是国家深远海战略的重要基础。利用波浪能发电装置吸收、捕获、转换海洋波浪能是为其提供持续、稳定、可靠能源的国家战略需要。众多波浪能发电装置中,基于垂荡运动的波浪能发电装置较适合低功耗-无人海洋装备的供能需求。垂荡式波浪能发电装置研发过程中水面浮体水动力学与能效特性研究是核心和关键工作。本文采用理论分析、数值计算和实验验证的方法,先后对垂荡式波浪能发电装
学位
随着人类文明的发展和科技的进步,人们了解这个世界的手段越来越多,获取的数据也更加复杂多样,信息的获取、处理等也从单一的形式逐渐变成图片、文本、视频等多模态的数据。传统机器学习一般针对某一类型数据进行建模学习,而当前面对种类繁多的多模态数据,多模态机器学习也应运而生。无论是传统机器学习还是多模态机器学习都离不开对数据的处理,如何有效获得数据中的信息始终是一个重要的研究领域。传统机器学习中的数据表征学
学位
地球的重力场测量是地球物理学、地球动力学、大地测量学、海洋科学以及空间科学的重要组成部分。海洋覆盖了地球71%的表面积,因此海洋重力场的测量至关重要。与船载重力测量相比,靠近海底的水下动态重力测量可以更接近重力场源,获得用于小型矿床探测和海水入侵监测的短波长的重力信息。由于水下没有卫星信号,水下动态重力测量面临着许多难点和挑战,研究并攻克捷联式水下动态重力测量的科学问题将为资源探测和海洋全息重力场
学位
海洋水下温盐要素场是影响海洋过程和气候变化的重要环境因素,获取海洋温盐结构需要大量可靠的温盐数据作为支撑。然而可采集海洋内部状态的现场观测数据,特别是盐度资料,仍较为匮乏,表现为数据分布零散且时空分辨率不高,难以满足海洋科学研究需要。卫星遥感技术的发展为海洋科学研究提供了较高时空分辨率的资料,尤其是近年来发射的三颗盐度卫星,有效拓展了过去极为有限的海洋盐度观测信息。然而卫星资料仅能观测海洋表层,无
学位
强大的计算能力、低功耗特性以及可持续增长的潜力,使得多核CPU计算平台已成为高性能计算发展的主流方向之一。然而,现有的并行离散事件仿真技术应用于多核计算平台时仍存在同步时延开销大、时间管理算法适用性不足、内存管理和数据过滤效率低等问题,难以充分发掘多核处理器的计算资源,致使仿真应用性能仍有提升空间。因此,开展基于多核计算平台的并行离散事件仿真优化技术研究,对于充分利用多核平台计算资源,提高仿真运行
学位
边界层转捩是影响高超声速飞行器气动力/热载荷精确预测的重要因素,直接关系到高超声速飞行器有效载荷及热防护系统可靠设计。基于转捩模式理论求解雷诺平均NS方程方法是目前开展边界层转捩预测的重要手段。但是,由于绝大部分转捩模型由低速流动发展而来,且模式中通常存在大量的经验公式和模式常数也基于低速边界层转捩理论和试验数据研究得到,而高超声速流动特征及转捩机制与低速流动存在较大的差别。因此在利用转捩模式方法
学位
多主体任务规划在给定环境下面向目标做出优化的多主体行动决策,在无人群体协同执行任务这类场景中,有着广泛的应用。随着自主无人群体智能应用的发展,环境动态、规模增长、任务多样等对多主体规划提出了新的挑战,亟需从以集中式走向分散式多主体任务在线规划方法。这主要表现在:第一,环境往往瞬息万变,具有动态不确定性,许多先验数据无法提前获得,此类场景下必须具有临机的在线规划能力;第二,分散式的规划具有实时性、可
学位
随着互联网技术的快速发展和数字媒体的广泛使用,数字媒体的安全越来越受到政府、企业、科研人员等的重视。数字媒体隐写和隐写分析是信息安全领域中两个相互对抗的研究方向。隐写技术主要研究如何把秘密信息隐藏于数字媒体之中;隐写分析技术主要研究如何发现数字媒体中是否含有隐藏的信息。两者既相互对立又相互促进、共同发展,尤其在国家安全、军事情报、政府机密、反恐斗争、商务机密等方面具有重要意义。数字图像作为数字媒体
学位
对辐射源的无源定位跟踪具有隐蔽性好、目标识别率高、探测距离远等优势,在电子侦察、远程预警、搜索救援等军用及民用领域均有广阔的应用前景,因此吸引了广泛的研究兴趣。本文研究基于多个运动观测站的时差/频差无源定位及无源跟踪这两类问题。对无源定位的研究,根据时差/频差观测量是否存在模糊分为:(1)无模糊观测条件下的目标定位;(2)模糊观测条件下的目标定位。对无源跟踪的研究则根据运动目标是否存在机动分为:(
学位