论文部分内容阅读
随着信息化进程的推进,在信息检索、模糊物体匹配、数据集成、传感器网络、社交网络等应用领域存在着大量的不确定数据。然而传统的关系数据库只能处理确定的数据,对于概率数据的查询处理显得力不从心。因此,如何高效地实现概率数据查询处理的问题成为现阶段数据库系统一个崭新的问题,这促进了概率数据库理论与技术的研究。近年来,概率数据库领域的热点问题一直集中在概率数据库的数据表示模型以及高效查询算法上。BIDL(Block Indenpent Disjiont with Lineage)模型在BID(Block Indenpent Disjiont)模型的基础上加入世系信息lineage。世系信息不仅可以记录数据的来源,而且可以方便用户提供反馈信息。概率数据库的基础查询算法总体上分为两类,即基于语义(intensional)的查询算法和基于扩展(extensional)的查询算法。前者可以保证结果的准确性,但是计算复杂度很高。然而,基于扩展的查询算法查询速度相对较快,但是不能保证查询结果的准确性。ST(Split Tuple)算法首先基于世系信息lineage进行概率推理,并深入分析元组间的关系,其次通过拆分相应的元组,从而使元组间的关系进一步清晰和易处理,然后采取有效的概率计算策略以及高效的概率计算算法执行查询,最后将查询结果以及对应的概率值返回给用户。基于世系信息的概率推理具有一定的可扩展性。高级查询算法包括Top-k、Skyline、K近邻(K Nearest Neighbors)、轨迹查询、阀值轮廓查询、join查询等。其中,K近邻查询在气象预报、传感器网络等时空数据库中发挥着重要作用。PKNN(Probabilistic K Nearest Neighbors)算法利用数据满足的一些性质在计算过程中记录中间结果来加快计算速度,实验结果表明,此算法具有一定的可扩展性,一定程度上提高了概率查询效率。