基于生成式预训练模型的SQL生成方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:aerbinbayaer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息资源已经成为各个行业当之无愧的战略资源,数据资源也已经成为真正意义上的互联网行业的“石油”资源。然而随着信息量的日益增长以及数据库在各行各业中的广泛应用,当下人们需要一种更为直接,高效,灵活的数据库检索方式,其中基于自然语言接口的数据库问答系统成为了该问题的“有效解”。NL2SQL作为一种面向关系型数据库的问答技术,在最近几年里随着WikiSQL,Spider,CSpider,DuSQL等Text-to-SQL数据集的公布,其研究正逐渐变得火热起来。由于关系型数据库是各行各业中最广泛使用的数据库以及数据量的日益增长,使得NL2SQL任务具有很高的研究价值和应用价值。然而当前所存在的主流方法,大多只能应用在简单SQL语句上,当面对嵌套,复杂语法的SQL语句时往往无能为力。其次当前的主流方法在生成SQL的过程中,往往需要在线地与数据库进行交互,这造成了在大型数据库应用场景下的落地困难,效率低下,效果差等现象。故如何建立一套简单直接,易于实施,有效且扩展性好的SQL自动生成方法是非常值得研究的问题。本论文基于上述问题提出了一种基于生成式预训练模型的SQL生成方法,这种简单直接,端到端的SQL生成方法,在生成式预训练模型强大的语言生成和语义理解能力的帮助下,可以有效地解决SQL生成中跨表,复杂语法,嵌套,性能受限于数据库规模等一系列问题,使得面向关系型数据库的问答系统更容易推广且应用。首先考虑到基于Seq2Seq架构的生成式预训练模型UniLM在非同源文本生成和构建领域具有显著优势,因此选用其作为本论文SQL生成方法的基本模型,并详细介绍了将UniLM用于SQL生成的基本原理和过程。其次本论文还创造性地提出了 SQL重编码技术,该技术通过对高频字段组合压缩编码和将多种从句合并为函数等方法,探寻出了一种可以使SQL表达字符更短,更有利于生成模型解码过程且命名为O-SQL的全新SQL表达方式。同时本论文还提出了一种基于数据库结构知识和内容知识的数据增广方法,利用对增广数据进行预训练的过程将数据库结构知识和内容知识融入生成模型参数中,再进行下游任务的微调,从而提高了 SQL生成查询准确率。最后通过实验论证了本论文所有方法在SQL生成问题上的有效性。
其他文献
目前关于正当防卫制度的研究在刑法领域已形成较成熟的“五要件说”认定标准体系,但正当防卫的证明难题仍需刑事诉讼法领域积极应对。在正当防卫他向证明层面存在证明责任分配及证明标准设定不统一,证据制度单一固化的困境,正当防卫自向证明层面面临正当防卫的认定呈现损害结果导向化,以及法院审理阶段自向证明模式僵化等难题。结合三阶层犯罪论,应构建针对控方的有罪指控,先由辩方行使举证权利,提出正当防卫的相关证据以推动
期刊
伴随经济全球化的高速发展,经济与科技一体化已成为主要发展趋势;同时,随着人们生活方式的改变,市场和产业的生态正在掀起新一轮的变革。如何利用“大智移云物”相关技术进行交融渗透、相互促进,如何使科技更好地适应市场的需求,关系到我国产业结构的变革、关系到我国经济的发展,是我国企业管理中面临的新挑战。物流作为现代服务业的重要组成部分,在稳定增长、促进改革、调整结构、普惠民生、防范风险等方面起到了关键作用。
学位
《义务教育道德与法治课程标准(2022年版)》提出了“命题立意、情境创设、任务指向、评分标准”四方面的建议。2022年常州市中考第17题充分落实了这四个方面建议,为新课标理念指导下的学业水平考试试题命制提供了参考。
期刊
二氧化碳排放的会计核算是较为典型的“市场先行、准则后发”,从十二五的试点先行、十三五为全国碳市场打基础、十四五里程碑式的“碳达峰”和“碳中和”的目标,碳排放已经过了10余年的快速发展;与之不相匹配的却是会计处理规定的“踟躅不前”:国外方面,国际会计准则理事会(IASB)和财务会计准则委员会(FASB)联合对此问题研究多年,至今仅形成关于碳排放权确认及计量的“联合会议共识”;国内方面,自2016年财
学位
自深交所和上交所成立以来,我国上市公司数量已突破4000家。中国的经济取得快速发展的同时也面临诸多挑战,前有银广夏、昆明机床事件,后有国药控股、金亚科技、圣莱达事件,类似的财务舞弊现象层出不穷。在2019年,国内资本市场可谓是变局频出,獐子岛、康美药业、东旭光电财务造假被查,长生生物被深交所下发“重大违法强制退市的决定”,这些重大典型事件不但损害了投资者的权益,也干扰了经济秩序,影响证券市场的发展
学位
移动终端的普及和数字化学习技术的发展,催生了在线学习这一新兴学习方式。大规模在线学习平台以其开放、线上和多元化的优势,打破了时空限制,重塑了传统教学模式。但由于缺少教师及时有效地指导,在线学习者往往被淹没在海量的知识中,无法找到符合自身需求的在线课程,出现信息超载等问题。近年来,研究者开始使用推荐技术来解决信息超载问题,该技术试图从海量在线课程资源中筛选出符合学习者个体特征的内容,从而实现个性化课
学位
多模态对话情绪分析旨在从一段对话中分析目标话语的情绪状态,在对目标话语进行情绪分析时不仅需要利用语音、文本、视觉多个模态的信息,还需要考虑目标话语所处的上下文语境。这些可以为情绪分析提供一个全局的视角。让智能设备能够感知人们对话中的情感,在人机交互、意见挖掘等领域有着十分重要的研究意义以及广阔的应用前景。在目前的对话情绪分析的研究中,大部分工作主要从自我情绪惯性和他人的影响两个方面来考虑对话中的情
学位
<正>近年来,江苏省常州市以法治教育为突破口,以"5"彩法治大课堂为品牌,开展中小学法治教育一体化建设,初步实现了五个"一体化"。一是教育内容一体化。系统开展红色宪法教育、蓝色民法教育、黑色刑法教育、黄色行政法教育、绿色成长教育。常州市教育科学研究院成立中小学法治教育课程指导中心,举行法治教育培训活动38次,采取主题培训、学术沙龙、参与式研讨、研究课展示、成果展评等多种形式,不断提升师生的法治素养
期刊
活动断层是地震的根源,也是地震灾害的元凶,当城市及其周边区域存在活动断裂会给人民生命财产安全和城市建设与发展带来隐患。目前河南省较多省辖市所在城市均已开展活动断层探测工作,各城市间区域是活动断层研究程度比较薄弱的地方,致使地震安全基础探测工作出现不均衡发展。研究区位于河南省西部洛阳偃师市、焦作济源市和孟州市等市间区域,涉及的主要地质单元有济源盆地、洛阳盆地及两者间的邙山隆起,具有明显的盆岭构造轮廓
学位
近年来,随着4G网络的全面普及以及5G网络的迅速发展,人们的日常生活与移动智能手机捆绑得越来越紧密,我们每天的生活都在各个App中周转,产生了难以计量的数据,在这其中,大学生群体是移动社交媒体重要的用户群体,但随之而来的就是各个移动社交平台对于用户信息的肆意窃取和盗用,信息泄露的情况时有发生,让使用移动社交网络的用户产生了焦虑。为了响应国家对于个人信息安全的保护政策、贯彻落实个人信息安全保护相关法
学位