论文部分内容阅读
随着网络应用的普及和信息采集技术的进步,人类生产和收集数据的能力迅速发展,人们需要面对的数据量也日益增长。这些数据通常呈现出数据量巨大,且分布在多个站点上的情况。数据密集型计算(Data-Intensive Computing)的出现,使得对这种新情况下的大数据进行有效处理成为可能。数据密集型计算指能推动前沿技术发展的对海量和高速变化的数据的获取、管理、分析和理解。目前它已经成为了数据研究和分析领域中的一个研究热点问题。贝叶斯网络(Bayesian Network,BN),是概率理论和图论相结合的产物。它是一种帮助人们将概率、统计应用于复杂领域、进行不确定性推理和数据分析的有效工具。然而由于传统的贝叶斯网络在对数据进行处理时,默认是将所有的数据置于同一个站点之上,因此在数据密集型的环境之下,就很难直接将传统的贝叶斯网络的相关理论和方法直接运用于其上。因此,对传统的贝叶斯网络进行扩展,使得其相关的理论,方法和结论可以运用于数据密集型计算环境之下就显得十分必要。本文的主要工作和创新之处总结如下:(1)对传统的贝叶斯学习方法进行扩展。在数据密集型的计算环境下,数据通常都是呈现出大量且分布与多个站点上的情况,因此需要对传统的贝叶斯网学习方法进行适当的扩展,从而使得它能够应用于新的环境之下。由于贝叶斯网的构建通常分为参数学习和结构学习两个部分,而若在已经确定了贝叶斯网结构的情况下,分布式的参数学习的扩展方法相对比较容易,因此本文重点讨论了分布式环境下的结构学习方法。考虑到在实际应用中,数据各个站点上的数据往往是不断到达各个站点的,因此本文重点讨论了第二种情况。(2)对传统的贝叶斯推理方法进行扩展。传统的贝叶斯推理方法,也是在默认所有的数据集在同一个站点上时进行的。在数据密集型计算环境下,如果在各个站点上分别利用传统的贝叶斯推理方法进行推理,那么推理出的结果仅仅是适用于各个站点的。不同站点之间,由于数据内容不尽相同,因此推理出的结果很可能也就不完全一致,甚至会出现部分冲突的现象。本文选取了一种常用的贝叶斯推理方法进行扩展,这种方法选取了吉布斯抽样(Gibbs Sampling)为随机算法的核心组成内容。并最终获取一个适用于全体数据集合的推理结果。此算法的有效性在文中后面的章节中给予了理论证明和实验验证。(3)提出一种数据密集型计算环境下的贝叶斯网具体应用——社区发现。社区发现是近些年来的一个研究热点问题,文中提出了一种利用关联规则发现过程中的频繁项目集,来构建相应的网络,并最终进行社区发现的方法。这个方法有两个优点,一方面它可以直接应用于数据密集型计算环境之下,从而扩展了传统贝叶斯网的应用范围;另一方面,它又充分利用了关联规则发现过程中的频繁项目集信息,构建出了一个能反映隐关系的网络,并在其上进行社区发现。