论文部分内容阅读
在信息化迅速膨胀的海量数据时代,数据的存储、管理以及分析处理等方面面临诸多挑战与机遇。其中在数据中存在着大量不确定性因素,这些不确定性带来了一定的概率存在,使海量数据在存储、管理和分析处理中带来了更多的挑战。采用基于数据世系的方法可以降低这类问题的复杂性。数据世系是基于数据的产生和发展来追踪不确定性的来源,广泛地应用于不确定性数据的查询优化、集成及质量保证等方面。基于世系表达式进行数据查询结果概率的计算以及回答概率推理查询,是数据世系面临的两大挑战。面对数据世系中的挑战,基于贝叶斯网的方法是现阶段中一种较好的可行方案。贝叶斯网(BN,Bayesian Network)是人工智能领域中不确定性知识表示和推理的经典工具,广泛应用于数据挖掘、医疗、军事、模式识别以及社区发现等方面。面对不确定性数据中存在管理和分析处理的挑战,本文通过以贝叶斯网作为理论基础,以数据世系的方式来表示不确定性数据并进行分析处理。因此,本文的主要工作包括:不确定性数据世系表示及其查询分析处理。归结本文主要贡献包括如下:·首先形式化地表示数据世系的时序过程。为更为清晰地进行论述,本文基于带概率的概率数据库进行连接查询来描述数据世系的过程。目前广泛使用的基于布尔表达式表示数据世系,本文通过扩展并进行转化为带有时序特征的世系表达式。·将世系表达式转化并构建得到以BN为典型代表的概率图模型。将带时序特征的世系表达式构建得到各时间片内世系表达式对应的有向无环图,然后相邻时间片间的时序关系,最后得到表示世系表达式的时序多层世系图模型。·基于概率图模型进行查询处理。基于时序多层世系图模型在概率推理方面的特点,并对概率推理方法进行扩展,可进行数据世系的查询处理。本文最后构建原型系统并演示不确定性数据世系的表示与查询处理过程等。