【摘 要】
:
分析型数据库通常需要在大规模数据集上高效完成复杂查询处理,主要包括查询优化和查询执行。作为现代分析型数据库最重要最核心的功能,查询处理涉及的代码范围广,处理逻辑复杂,导致测试的高成本,缺乏充分和灵活的测试可能导致在生产环境中出现严重的问题。现有针对查询执行正确性验证的工作存在负载质量不高,理想结果集(验证集)获取难度大等问题。常见的标准评测基准比如SSB、TPC-H由于缺乏数据的倾斜度和负载的多样
论文部分内容阅读
分析型数据库通常需要在大规模数据集上高效完成复杂查询处理,主要包括查询优化和查询执行。作为现代分析型数据库最重要最核心的功能,查询处理涉及的代码范围广,处理逻辑复杂,导致测试的高成本,缺乏充分和灵活的测试可能导致在生产环境中出现严重的问题。现有针对查询执行正确性验证的工作存在负载质量不高,理想结果集(验证集)获取难度大等问题。常见的标准评测基准比如SSB、TPC-H由于缺乏数据的倾斜度和负载的多样性,不适用于评测查询优化的核心,比如基数预估和连接顺序选择。针对优化器评估,现有工作同样存在无法触碰优化器核心功能的问题,同时现有的算子准确基数生成方法效率低下,有很大的资源开销,缺乏可行性。为了更好地支持数据库开发过程中进行查询执行和查询优化的评测,本文设计并实现了一个面向分析型数据库查询处理功能的模糊测试工具。具体来说,基于随机化理论完成对数据和负载生成的多样性保证,通过主外键关联关系构建表间数据依赖链,基于约束满足问题建模算子的输出结果表示,自主构建高效可扩展的求解器,完成对算子准确基数和查询理想结果的自动化生成,并设计连接顺序评估模块对查询优化器的连接顺序选择进行评测。最后通过在真实数据库系统上的测试实践,验证了工具的有效性和可用性。本文的主要贡献归纳如下:1.基于确定性数据生成机制,生成具有动态倾斜度和支持连接运算的大规模数据,为负载生成提供丰富的特征选择空间,满足真实测试场景的模拟需求。2.基于随机化理论可扩展地生成语法和语义正确的多表连接负载模版,并设计了结果导向的查询参数实例化算法,保证查询产生完全有意义的非空结果。3.基于约束满足问题提出了查询中算子准确基数的生成方法,自主构建了可扩展的求解器,自动化高效地生成算子的准确基数和查询的理想结果。并基于连接基数设计了连接顺序重排算法对优化器的连接顺序选择进行评测。4.实现了一整套用于评测查询处理功能的模糊测试工具,可服务于分析型数据库研发过程中的查询执行正确性评测,查询优化器基数预估准确性以及连接顺序选择算法优劣的评估。本文将工具应用于真实的生产级数据库系统中进行了测试场景生成效率验证、查询执行正确性、查询优化器基数预估准确性以及连接顺序选择的评测,并发现了相关功能及性能问题,证明了该工具的可用性。
其他文献
随着经济环境的发展、业内多项限制措施的出台,外加新型冠状病毒肺炎疫情的冲击,近几年房地产业开始面临融资限制、拿地困难、销售业绩下滑等状况。对部分风险抵御能力不足的企业来说,债务危机甚至资金链断裂等情况时有发生。华夏幸福为我国大型房地产上市企业,在业务规模、经营表现方面均处于行业领先水平。2021年2月2日公告其存在债务违约的情况,给企业自身及多方利益相关者造成损失。本文从华夏幸福财务危机事件出发,
员工持股计划(Employee Stock Ownership Plans,ESOP)是公司员工通过认购本公司的股票或期权,获得企业所有者与劳动者的双重身份,同时参与公司经营和利益分配的一种制度。员工持股计划于20世纪80年代引入我国,但由于当时缺乏有效的政策指导和监督,出现了大股东利益输送、国有资产流失等问题,员工持股计划随即被证监会叫停。直至2014年,证监会发布我国企业员工持股试点的相关指导
知识经济时代,科技实力作为国家核心竞争力的重要组成部分,决定着一个国家在国际格局中的地位。中国作为科技大国,通过提高技术敏感性以快速、精准地识别科技发展方向是基本且重要的要求。这当中技术机会的识别和挖掘为国家制定科技研发的方针和政策,扶持高校和企业展开研发奠定了重要的基础,也向提供科技情报与知识供给的研发主体提出更高要求。在此前的研究中,技术机会识别多采用定性或定量的方法,从宏观角度给出技术机会发
2008年重大资产重组的证监会令推出,自此正式拉开借壳上市的帷幕,创业板的成立、全国中小股份转让系统的揭牌运营、注册制改革、科创板运行,再到如今北京证券交易所的成立,市场规则逐渐完善。企业发展选择多元化和时间跨度的完整性为追溯借壳上市的发展提供历史意义和可能性。跨行业的弱协同效应下制造业企业利用壳资源长时间跨度的绩效分析成为研究内容的主题。本文以联创电子借壳汉麻产业上市为案例分析对象,采用事件研究
ESG来源于环境(Environmental)、社会(Social)、公司治理(Governance)三个角度的英文缩写。近些年来,随着我国提出“3060”、“碳达峰、碳中和”的目标,ESG逐渐成为企业发展中不可忽视的重要因素,企业的发展目标也从追求单一的经济效益转向力求经济效益与社会效益共同发展。过去的观点普遍认为,企业实现经济效益与积极履行社会责任二者之间呈现出负相关的态势。因此,企业为了保障
随着教育改革,新时期高校的女性学者规模不断扩大,而在学术环境中素来存在学术不平等的状况,女性在就业市场中普遍存在着“管道泄露效应”以及“玻璃天花板”现象。女性学者的学术发展困境对我国的人才培养建设以及人才激励计划制定均存在影响,通过对于女性学者学术发展情况的归纳,科研表现影响因素的总结,能够对于推动我国女性学者职业进步。本文以图书情报学科女性学者为研究对象,收集其学历、职称、就职院校、年龄、科研背
本文选择京东平台与掌阅书城平台分别作为纸质阅读与数字阅读的代表平台,使用两个平台共有的100本热门书籍的评论作为研究数据,对评论文本内容与书籍读者之间的评论关系进行挖掘分析。在评论文本内容的分析上,本文通过可读性分析、构建评论维度、情感性分析以及相关性分析的方法进行研究。同时,本文使用评论数据构建了“书籍-读者”二模网络,通过中心性分析、核心书籍识别分析、模块化书籍子社群分析对评论关系进行挖掘。此
信息过载问题的深化和交叉研究的兴起对信息检索系统的过滤能力提出了更高的要求,检索词推荐是降低不相关信息影响、提升信息质量的一项基础信息检索服务。本文引入计算语言学中的依存句法理论和语言网络理论,以揭示科学概念在科学文献中的关联,并将这些关联作为一种信息筛选和过滤的标准,提出了一种基于语言网络的检索词推荐方法。该方法基于Web of Science平台124516篇Information Scien
随着数字人文研究的兴起,大数据、GIS、语义网、虚拟交互(AR/VR)人工智能等技术革新了人文研究范式。一方面,可复用、可关联及可聚合的高质量人文数据成为人文研究的基础。这导致对智慧数据的需求越来越大,面向人文研究的基础设施不再局限于数字化,而向数据化、语义化转变;另一方面,人文研究行为更多地发生于数字环境,跨区域、跨学科、跨层级的开放虚拟协作环境成为数字人文研究的基本条件。这对数据权属界定、数据
开放共享观念的出现,科研项目开始利用开放存取的科研数据,推动了开放科学研究的起步和发展,这一现象也受到各国政府机构和科研机构的关注与重视,越来越多的学者开始研究科研数据服务的理论与实践现状。研究主要集中在对科研数据管理的理论研究和以问卷或网络调研的科研数据服务实践现状的研究,通过研究对我国高校实际的科研数据服务提出简要建议,而对服务模式的研究相对欠缺。本研究的研究方法为文献调研、网络调研、案例分析