不确定性top-k查询处理研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户：parisjiang

【摘要】

：

随着数据采集和处理技术的进步,存在大量噪声、丢失值、错误及不一致的不确定性数据越来越多,传统确定性数据管理技术正面临着前所未有的挑战。允许不精确成为小数据到大数据

【作者】

：

李文凤

【出处】

：

武汉大学

【发表日期】

：

2014年01期

【关键词】

：

不确定性top-k查询基于时间戳的流数据约简多树堆并行优先级取样位置概率分布非分值敏感性不确定性ton-p%查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据采集和处理技术的进步,存在大量噪声、丢失值、错误及不一致的不确定性数据越来越多,传统确定性数据管理技术正面临着前所未有的挑战。允许不精确成为小数据到大数据的转变之一,因此如何有效的管理不确定性数据正成为当前一项紧迫的研究任务。不确定性top-k是不确定性数据查询中的重要查询,虽然在语义及查询处理上已有广泛研究,但仍存在查询语义繁杂,查询效率低,实际应用无法直接引入的问题。本文主要基于不确定性top-k查询处理的概率数据获取、多语义统一查询处理及进行不确定性top-p%扩展等问题展开研究。第一章首先对相关背景和工作做了简要回顾,接着在第2章到第5章对各研究内容进行了详细的讨论。1.大流量数据流约简中概率获取技术针对目前不确定性top-k查询处理数据的概率难以获取,而基于时间戳的数据流在约简中缺乏衡量精度损失的问题,本文提出一种带精度控制的多树堆并行优先级取样算法MMP,实现随机取样约简并获取约简后数据的带精度控制的近似概率分布。MMP算法从1-样本优先级取样出发,根据1-样本优先级取样的特点设计了只保留右脊的树堆结构实现随机取样,大大节省时间开销；MMP采用逆蓄水池方法扩展出多个树堆并行运行,从而实现取样规模灵活扩展；本文还对变量的概率分布精度与取样规模关系进行分析,并应用于MMP取样规模的控制。因此,MMP算法能实现灵活的精度可控的概率分布获取。2.多语义不确定性top-k统一查询处理技术针对目前不确定性top-k查询语义从处理方式到查询结果差异巨大带来的资源浪费及效率低下的问题,本文提出一种基于共享位置概率分布的方案,通过位置概率分布的预计算以及基于其上的基本操作,高效实现U-kRanks, Expected Rank, PT-k, Global-topk等非分值敏感型top-k查询语义。位置概率分布计算是最耗时的,本文采用基于分组策略的随机近似方法,在不展开所有可能世界空间的前提下,得到精度极高的位置概率；为了存储位置概率分布及高效支持基于位置概率分布的基本操作,本文设计了PPD结构；而基于PPD的四个基本操作通过简单组合后可实现大多不确定性top-k查询语义。预先计算并存储位置概率分布可以将最耗时的操作与实时查询分开,提高查询响应效率；设计基本操作有利于针对查询语义进行扩展。理论分析与实验结果表明,基于分组策略的随机近似方法计算位置概率分布能极大提高非分值敏感性不确定top-k的查询效率,且查询结果的精确度很高；同时随机近似方法计算的位置概率分布能有效避免“tie”带来的不稳定性。3.不确定性top-p%查询处理技术针对目前基于不确定性top-k查询扩展到不确定性数据上进行p百分位数查询时,从语义和查询算法上都存在很多不合理的情况。通过分析多种不确定性top-k语义及百分位数的含义,定义出两种合理的不确定性p百分数查询语义EU-pRank和R-PTp。其根据EU-pRank和R-PTp的语义,现存的不确定性top-k查询处理算法都无法直接使用,即使可以使用位置概率间接分步骤实现,时间开销也很大,本文通过分析位置概率递推关系,提出对角线递推的方式,节省不必要位置概率计算,大大节省了时间开销。在有重复值存在的时候尤其是重复值比较多的时候,合并重复值可以带来可能世界空间规模的大幅度缩减。通过分析有重复值时的不确定性百分位查询过程,设计了扩展合并方法EU-pRank-EC和R-PTp-EC实现有重复值时的不确定性百分位数查询,进一步提高有重复值存在时的查询效率。真实数据集上的实验分析表明,使用确定性的百分位数查询方法的确会因数据不确定性增强而带来分析结果的偏差,而使用EU-pRank或R-PTp则可以改善或消除这种偏差。基于对角线递推的查询算法则可以极大提高查询效率。在有重复值的情况下,进行扩展合并还能进一步提高效率。4.基于不确定性性支持的专利决策分析系统针对现有专利分析研究没有结合市场环境提供分析的缺点,本文专利分析决策系统不仅考虑专利文本分析的结果,还充分考虑并量化了市场因素带来的影响,使不确定性排序在检索中的基础地位和作用得到验证。在研发决策分析中,量化了专利新颖度,专利研发难度及市场预期三个指标,以专利研发难度为研发不确定性的量化根据,新颖度和市场预期为研发收益的得分根据进行不确定性排序,在用户决策需求的基础上,给出决策支持。

其他文献

基于现象学理论的国家考古遗址公园展示空间设计研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

国家考古遗址公园现象学展示空间体验

大数据技术在电力通信网的研究与应用

近些年,信息化技术不断发展,在各行各业都获得了较为广泛的应用,提高了工作效率。该文首先对大数据的基本特征进行了分析,然后针对目前大数据技术在电力通信网的实践进行了详

期刊

大数据技术应用电力通信网

2009年全国结直肠肛门外科新技术新进展（良性疾病）研讨会征文及会议通知

由《中华胃肠外科杂志》、中华中医药学会肛肠专业委员会和湖南省肛肠外科学组主办，湖南省人民医院承办的《2009年全国结直肠肛门外科新技术新进展（良性疾病）研讨会（国家级医学继续教育项目【2009—04—01—099（国）】）。定于2009年8月28～31日在湖南省长沙市举办。本次研讨会主要就结直肠肛门实用解剖、结直肠肛门良性肿瘤、直肠脱垂、肛周脓肿、痔、肛瘘、慢性便秘等常见病、疑难病诊治方面的新技术

期刊

《中华胃肠外科杂志》期刊编辑工作发行工作

西藏高原东部江达构造带成矿体系

通过深入研究江达构造带的构造演化及构造-成矿耦合关系,对江达构造带的成矿规律进行了初步研究,提出其经历了洋陆作用下的陆缘弧体制(C3-T2)→陆内伸展作用下的陆内-陆间裂

会议

江达构造带构造体制构造-成矿耦合成矿体系

2014-2018年绵阳市414例中学生肺结核患者疫情分析

期刊

肺结核中学生流行特征

合肥建设区域性金融中心的必要性和条件

[摘要]金融已经成为现代经济的核心，构建以自身为中心的区域金融中心，对于自身区域经济的发展具有重大的推动作用。本文从理论和数据两方面讨论合肥建设区域性金融中心的必要性和条件。　　[关键词]现代经济区域金融中心　　一、合肥建设区域金融中心的必要性　　目前，大约全国有29个城市先后提出了构建区域金融中心的目标，这些城市基本上都是省会城市或者直辖市。合肥作为安徽省中部崛起的中心城市，构建区域金融中心

期刊

现代经济区域金融中心

不确定性top-k查询处理研究

其他学术论文