基于分布感知的近似查询处理技术

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:whlyxyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,随着数据量的迅猛增长和数据驱动型决策的应用,大规模分析查询变得越来越重要,但在海量数据上计算精确的查询结果代价非常昂贵。近似查询处理(Approximate Query Processing,简称AQP)是一种为SQL查询快速提供近似回答的技术,它通过降低精确度以换取更快的响应速度。在基于在线采样的AQP技术中,蓄水池和Bernoulli等随机采样方法被广泛应用,但它们通常适用于分布均匀的数据集,而在偏态数据上的表现性能很差。因此,本文为聚合查询提出一种可感知数据分布的在线采样近似框架,结合离线存储的分布统计信息自适应地调用不同采样方法为查询列集生成样本,从而更高效、更准确地回答聚合查询。进一步考虑到传统AQP技术仍然存在许多不足,例如在线AQP技术的查询响应时间较长,离线AQP技术的近似误差较大且占用大量内存空间,本文试图从机器学习角度出发,为范围(Range)查询提出可感知聚合列分布的采样优化方法,并在所获得的样本上训练机器学习模型用于快速回答范围查询和提供误差保证。本文的主要工作和贡献可总结如下:·面向聚合查询,提出基于查询列集分布感知的在线采样AQP技术针对传统采样方法在处理偏态数据集上的聚合查询时性能较差的问题,本文提出可感知查询列集数据分布的在线采样近似框架(Aggregation Queries Approxima-tion,AQapprox)。该框架预先构建离线Map来记录用户感兴趣的属性列集在每个数据分段上的统计信息,并存储对应的非参数统计检验结果;在回答查询时,便根据目标查询列集的分布特征自适应地调用不同采样方法,对每个分段设置不同的采样概率,从而为查询准备质量较好的样本。在真实与合成数据集上的实验结果显示,AQapprox相比于现在最优的近似框架,在聚合查询上的响应速度可提高5.9至64倍,且近似准确度更高。·面向范围查询,提出基于聚合列分布感知的模型驱动AQP技术针对传统AQP技术在近似准确度与查询响应时间等方面的不足,一些应用机器学习方法的AQP技术无法提供误差保证等问题,本文为范围查询提出一个模型驱动的近似处理框架(Range Queries Approximation,RQapprox)。结合对查询工作负载的分析,提出可感知聚合列分布的采样优化方法,在优化样本上训练密度估计器和回归模型用于快速回答查询,并基于分位数回归为近似结果提供预测区间。当底层数据集更新时,设计Dstatistic实时监测聚合列数据分布的变化,以便判断是否需要更新模型。在数据库基准测试标准与真实数据集上的实验结果显示,RQapprox相比于现有最优方法的近似准确度更高,且相比Verdict DB的平均加速可达13.80倍。
其他文献
一氧化氮(NO)是生命体内的一种重要的生理活动调节剂,参与机体的各项生命活动,在心脑血管系统防护、神经系统的信号传导以及免疫系统中起着至关重要的作用。NO稳态的破坏会导致生物体内部环境紊乱,进而引发一系列的疾病。然而NO的半衰期较短,容易扩散进入其他组织和系统与活性氧等相关物质发生作用。因此,开展对NO快速响应和检测的研究非常重要,这也有助于理解和解析与NO密切相关的疾病病理。目前对于NO的检测和
锂电池是目前应用最广泛的储能设备。与传统的液体电解质相比,固体电解质具有沸点高、毒性低、安全系数高等优点。开发高稳定性、高离子电导性的固体电解质是锂电池领域研究的热点和难点之一。本论文选择聚氧化乙烯(PEO)为聚合物基体,利用三维多孔性Li6.4La3Zr2Al0.2O12(LLZAO)或MOF多孔材料对其进行掺杂改性,同时加入离子液体做增塑剂,制备PEO基复合固态电解质,研究复合电解质的结构信息
在复杂生物体系中对目标物的动态变化进行高时空分辨的研究有利于更好地理解其生物功能、开发和筛选药物。因此,开发高时空分辨的荧光生物传感器非常必要。但要实现高时空分辨仍然面临很多挑战,比如:探针未达到细胞内特定位置,便与细胞外的分子特异性识别,从而导致了探针在时空方面的准确度较差和信噪比较低。在本论文中,我们采用紫外光敏感的PC基团(邻硝基苄基)作为光控元件,通过光对PC基团实现在时间和空间上的高精度
随着科学技术的快速发展,物联网技术已经应用于我们工作与生活中的方方面面。物联网设备的安全性和稳定性已经越来越被人们所重视。嵌入式操作系统作为物联网嵌入式设备的最基础软件,其重要性毋庸置疑。内核服务是操作系统提供的最基础功能服务,只有内核服务的安全性和正确性得到保证,操作系统才能够稳定的运行。设计高效安全的内核服务是构建一个优秀嵌入式操作系统的关键。编程模型作为操作系统的重要内核服务,会决定系统的调
基于近红外二区(NIR-Ⅱ)窗口设计与合成的荧光探针越来越受到化学、生物领域的关注。NIR-Ⅱ荧光探针在1000-1700 nm波长范围内具有荧光发射。相较于其他发射波长(如可见光区、近红外一区等)的荧光探针而言,由于NIR-Ⅱ荧光探针具有更高分辨率、更高信噪比及更深组织穿透能力等特点,越来越多的科研人员基于其开展了活体成像、手术引导及肿瘤治疗等方面的研究。同时,恶性肿瘤的发病率和致死率逐年提高,
骨肉瘤是一种罕见且致命的恶性肿瘤,常见于儿童和青少年。手术截肢和辅助化疗是目前最主要的治疗手段,但对远端转移患者的治疗效果极差。由于骨肉瘤亚型众多,靶点尚不明确,迄今为止仍无有效的靶向治疗药物,因此,筛选有活性的抗骨肉瘤化合物对发现新的抗骨肉瘤靶点、开发新型治疗药物具有重要意义。本论文从一系列新型噻唑酮类化合物中筛选出抗骨肉瘤活性化合物,并进一步对其活性最好的化合物的体内药效、药代动力学及安全性进
肿瘤微环境(TME)与肿瘤的生长、侵袭和转移等密切相关,因此,精准检测肿瘤微环境,对于监控肿瘤生长、侵袭和转移具有十分重要的指导意义。超声影像是一种临床常用的安全、便捷的影像技术;借助于超声影像探针,可实现对肿瘤微环境的定性和定量影像研究。目前,临床常用的超声影像探针一般为微泡;然而遗憾的是,微泡不仅尺寸过大(通常为微米级别),无法穿越肿瘤血管壁到达肿瘤组织区域;同时在体内易发生扩散,导致信号质量
本文主要研究了完全图分解为边相等的路和星的充分必要条件,并证明了如下两个结论:设m,n,k为正整数,r为非负整数,2≤n≤m,k为偶数,0≤r≤k-1且(mk+r)(mk+r-1)≡0(mod 2k)。假设E为有k个点的空图,若Knk+r和E∨K2 k可以分解成p个Pk+1和q个Sk+1,其中p,q为所有可能的取值且p≥0,q≥0,则Kmk+r可以分解成p个Pk+1和q个Sk+1,其中p,q为所有
副猪嗜血杆菌为副猪嗜血杆菌病的病原菌。作为危害猪呼吸道的重要病原菌之一,每年都会为全球养殖业带来巨大损失,该病的防控一直是个难题。而艾纳香,作为一种传统苗药,虽未见用其于猪病的报道,无论从中药理论上分析或是考虑到其本身良好的体外抗菌能力和体内安全性,都具有治疗副猪嗜血杆菌病的潜力。本课题即对艾纳香油抗副猪嗜血杆菌的体内外效果进行了研究,并对其抗菌机制进行了初步的探索。实验从艾纳香油对副猪嗜血杆菌的
随着我国城镇化率的不断提高,耕地面积逐年减少,维护国家粮食安全形势严峻。尽管我国严守耕地红线18亿亩的底线,全面落实永久基本农田保护政策,但如何利用有限的土地资源提高粮食产量,一直是农业工作者研究的方向。水稻作为重要的单子叶模式植物,是我国最主要的粮食作物之一,其产量由单位面积穗数、每穗总粒数、结实率和千粒重组成,其中千粒重又受到粒型因素(粒长、粒宽、粒厚)调控。因此,解析水稻粒型的遗传调控机制有