论文部分内容阅读
随着数据采集和处理技术的进步,存在大量噪声、丢失值、错误及不一致的不确定性数据越来越多,传统确定性数据管理技术正面临着前所未有的挑战。允许不精确成为小数据到大数据的转变之一,因此如何有效的管理不确定性数据正成为当前一项紧迫的研究任务。不确定性top-k是不确定性数据查询中的重要查询,虽然在语义及查询处理上已有广泛研究,但仍存在查询语义繁杂,查询效率低,实际应用无法直接引入的问题。本文主要基于不确定性top-k查询处理的概率数据获取、多语义统一查询处理及进行不确定性top-p%扩展等问题展开研究。第一章首先对相关背景和工作做了简要回顾,接着在第2章到第5章对各研究内容进行了详细的讨论。1.大流量数据流约简中概率获取技术针对目前不确定性top-k查询处理数据的概率难以获取,而基于时间戳的数据流在约简中缺乏衡量精度损失的问题,本文提出一种带精度控制的多树堆并行优先级取样算法MMP,实现随机取样约简并获取约简后数据的带精度控制的近似概率分布。MMP算法从1-样本优先级取样出发,根据1-样本优先级取样的特点设计了只保留右脊的树堆结构实现随机取样,大大节省时间开销;MMP采用逆蓄水池方法扩展出多个树堆并行运行,从而实现取样规模灵活扩展;本文还对变量的概率分布精度与取样规模关系进行分析,并应用于MMP取样规模的控制。因此,MMP算法能实现灵活的精度可控的概率分布获取。2.多语义不确定性top-k统一查询处理技术针对目前不确定性top-k查询语义从处理方式到查询结果差异巨大带来的资源浪费及效率低下的问题,本文提出一种基于共享位置概率分布的方案,通过位置概率分布的预计算以及基于其上的基本操作,高效实现U-kRanks, Expected Rank, PT-k, Global-topk等非分值敏感型top-k查询语义。位置概率分布计算是最耗时的,本文采用基于分组策略的随机近似方法,在不展开所有可能世界空间的前提下,得到精度极高的位置概率;为了存储位置概率分布及高效支持基于位置概率分布的基本操作,本文设计了PPD结构;而基于PPD的四个基本操作通过简单组合后可实现大多不确定性top-k查询语义。预先计算并存储位置概率分布可以将最耗时的操作与实时查询分开,提高查询响应效率;设计基本操作有利于针对查询语义进行扩展。理论分析与实验结果表明,基于分组策略的随机近似方法计算位置概率分布能极大提高非分值敏感性不确定top-k的查询效率,且查询结果的精确度很高;同时随机近似方法计算的位置概率分布能有效避免“tie”带来的不稳定性。3.不确定性top-p%查询处理技术针对目前基于不确定性top-k查询扩展到不确定性数据上进行p百分位数查询时,从语义和查询算法上都存在很多不合理的情况。通过分析多种不确定性top-k语义及百分位数的含义,定义出两种合理的不确定性p百分数查询语义EU-pRank和R-PTp。其根据EU-pRank和R-PTp的语义,现存的不确定性top-k查询处理算法都无法直接使用,即使可以使用位置概率间接分步骤实现,时间开销也很大,本文通过分析位置概率递推关系,提出对角线递推的方式,节省不必要位置概率计算,大大节省了时间开销。在有重复值存在的时候尤其是重复值比较多的时候,合并重复值可以带来可能世界空间规模的大幅度缩减。通过分析有重复值时的不确定性百分位查询过程,设计了扩展合并方法EU-pRank-EC和R-PTp-EC实现有重复值时的不确定性百分位数查询,进一步提高有重复值存在时的查询效率。真实数据集上的实验分析表明,使用确定性的百分位数查询方法的确会因数据不确定性增强而带来分析结果的偏差,而使用EU-pRank或R-PTp则可以改善或消除这种偏差。基于对角线递推的查询算法则可以极大提高查询效率。在有重复值的情况下,进行扩展合并还能进一步提高效率。4.基于不确定性性支持的专利决策分析系统针对现有专利分析研究没有结合市场环境提供分析的缺点,本文专利分析决策系统不仅考虑专利文本分析的结果,还充分考虑并量化了市场因素带来的影响,使不确定性排序在检索中的基础地位和作用得到验证。在研发决策分析中,量化了专利新颖度,专利研发难度及市场预期三个指标,以专利研发难度为研发不确定性的量化根据,新颖度和市场预期为研发收益的得分根据进行不确定性排序,在用户决策需求的基础上,给出决策支持。