【摘 要】
:
近年来,自然语言处理关键技术之一语义解析得到越来越多人的关注,NL2SQL任务属于语义解析,NL2SQL任务是将自然语言描述通过模型将其转换成可执行的SQL查询语句。由于中文文本与英文文本之间的差异,因此不能直接将以往基于英文数据集的NL2SQL模型应用到中文文本上。同时,现有的NL2SQL模型中一般都使用序列生成模型来预测条件值,此方法预测得到的条件值准确性较低,预训练模型也只使用BERT,而其
论文部分内容阅读
近年来,自然语言处理关键技术之一语义解析得到越来越多人的关注,NL2SQL任务属于语义解析,NL2SQL任务是将自然语言描述通过模型将其转换成可执行的SQL查询语句。由于中文文本与英文文本之间的差异,因此不能直接将以往基于英文数据集的NL2SQL模型应用到中文文本上。同时,现有的NL2SQL模型中一般都使用序列生成模型来预测条件值,此方法预测得到的条件值准确性较低,预训练模型也只使用BERT,而其他预训练模型的效果不得而知。而且在研究NL2SQL任务时,往往忽略了数据质量和模型泛化性能的重要性,针对以上问题,本文提出单表场景下的中文NL2SQL模型。本文的创新点如下:(1)在SQLNet的基础上进行创新,在SQLNet结构不变的情况下添加sel_num与where_num两个任务得到Ch_SQLNet,同时,将预训练模型应用到Ch_SQLNet中、条件值where_value的预测视为序列标注任务得到Pre_NL2SQL。(2)本文依据SQL语句结构将Ch_SQLNet与Pre_NL2SQL分成8个子任务,并在中文数据集Table QA上对8个子任务的准确率进行对比实验分析,最终将8个子任务的预测结果组成SQL语句,在查询匹配准确率和执行结果准确率两个评价指标上评价模型性能。(3)使用特殊的数据预处理和RDrop正则化,提高Ch_SQLNet与Pre_NL2SQL在评价指标上的准确率。实验结果表明:1、Ch_SQLNet在8个子任务上的准确率比SQLNet要高,在两个评价指标上比SQLNet高19.1%和17.2%。2、Pre_NL2SQL在8个子任务的准确率上比Ch_SQLNet高,在两个评价指标上比Ch_SQLNet高3.6%和1.7%。3、经过特殊的数据预处理以及RDrop正则化后,Ch_SQLNet和Pre_NL2SQL在两个评价指标上最大提升了0.6%和0.4%。
其他文献
文章在全面总结剖析国内外种业创新发展现状与趋势的基础上,对山东省种业创新发展情况进行了系统梳理,针对山东省当前种业创新发展存在的主要问题与迫切需求,提出了种业创新的主要目标、技术路线和相关对策建议,以期为山东省乃至全国各省市种业创新发展提供积极借鉴。
煤层瓦斯含量的准确测定对矿井瓦斯的防治具有重要意义,而直接法测定煤层瓦斯含量测定过程中损失瓦斯量得精准计算至关重要,目前损失瓦斯量补偿计算模型较多,且各煤层瓦斯解吸规律也各不相同,导致各损失瓦斯量补偿计算模型在使用时计算结果产生的误差较大,造成瓦斯含量测定值偏差较大。为此,为提高平煤六矿煤层瓦斯含量测定的准确性,在戊8、戊9-10、丁5-6煤层现场采取代表煤样,进行0.5MPa、1.0MPa、1.
随着我国煤炭开采的深度和规模不断增加,煤矿灾害发生的频率也随之增高,造成的危害也更大。煤矿生产安全事关国家能源供应的稳定和工人的人生安全,所以对矿井各种灾害预测方法的研究具有重大的意义。人们对各类预测煤矿灾害的方法展开了深入的研究与分析,其中电阻率法也被用来预测煤矿灾害的发生。电阻率法能够通过利用地壳内各种岩石之间导电性的不同,凭借探寻和揭露地下人工建立的稳定电流场的分布规律,来探测断层破碎带、调
人脸超分辨率是计算机视觉的一个热点研究方向,目前多数算法仅针对双三次降采样或其他高斯模糊技术生成的人工低分辨率图片进行超分。但真实场景下采集到的人脸图像往往受到噪声、模糊、低分辨率等复杂降质因素的干扰,这导致传统的人脸超分具有较低的鲁棒性,无法满足现实需要。因此对真实场景下的人脸图片进行盲超分具有重要的现实意义。针对这一问题,常见的人脸盲超分算法分为有监督和无监督两种技术方向。其中基于有监督的算法
在问答场景中,回答问题需要依赖大量的背景知识,基于规则和文本匹配方式的自然语言问答无法利用现有的大量人类背景知识。传统的基于知识图谱的检索式问答采用流水线的方式实现,这会导致错误传播。为了减少累积错误,一般会采用多召回后排序的方式。但是,这种方式会导致召回的候选路径过多,增加了路径排序的难度。为了解决以上问题,本文提出了一种将生成路径模型与信息检索相结合的方法。其中本文的主要工作如下:(1)构建了
硅基液晶芯片(LCOS)是实时光学信息处理,自适应光学和光计算等现代光学领域的关键器件,它在现代光学技术的发展中起着重要的作用。由于LCOS支持Flex-grid特性,已成为实现WSS模块的主流技术方案。基于LCOS芯片的空间光调制器的工作原理是利用液晶的电控双折射效应,它是一种在不改变光束振幅的条件下,实时、动态地对入射光进行相位调制的一-种光调制器件,被广泛应用在光电混合信息处理系统中。与传统
根据海关统计数据,按国别或地区对近年来山东苹果的出口情况进行了分类汇总。结果显示,2017—2021年,山东苹果共出口到世界57个国家或地区;其中,对海上丝绸之路沿线各国或地区的出口量占总出口量的98.66%,且单价高于对外出口均价。鉴于我国苹果出口受新冠肺炎疫情、地缘政治和国际形势等多种复杂因素影响,建议山东省充分利用RCEP提供的历史机遇,继续深耕东南亚市场;发挥海运优势,努力扩大在中亚和西亚
信息的重要程度越来越高,各行各业都被海量的信息所覆盖,这海量的信息中包含着多种模式的信息载体,形如文本、视频、图片、语音等,其中文本则是这些信息的最重要的载体之一。然而在船舶领域,还没有形成一套合理的分类流程与方法,在区分专业性极强的船舶文本信息时需要进行人工比对,这将花费大量的人力资源成本和时间成本。本文就此问题提出一套可行的解决方案,并在原算法基础上进行创新。本文主要研究将文本分类相关技术应用
光纤光栅应变传感器所具有的重量轻、易安装、可复用以及抗电磁干扰等优点使其可以很方便进行应变场的长期监测,这一特性在结构健康监测领域中有着重要应用。基于全同弱反射光栅阵列的分布式高速应变测量系统采用时分+波分复用的解调方式,与布里渊散射技术实现的分布式应变传感系统相比有着更高的解调速度,同时,相较于普通光栅技术实现的应变传感系统其有更长的探测距离以及更大的光栅容量。本文以基于全同弱反射光纤光栅阵列应
随着城市工业化、现代化进程的持续加快,城市规模扩张,工程建设量急剧增加造成事故频发,对消防救援队伍的救援响应速度、救援资源调度分配、现场救援作业、科学施救、重点单位预案录入等综合能力提出更高要求,越来越多的信息化手段全面融合消防业务管理和实战应用,为适应城市消防指挥中心的接处警工作要求,针对当前大多数接警系统信息录入、力量调配效率偏低等问题。本文提出一种基于ALBERT的预训练模型在接处警系统中对