论文部分内容阅读
随着移动互联网、云计算、移动通信等技术的发展,Internet上海量数据已呈几何级增长,大数据时代已经开启,分布式系统的规模和架构也因此发生了极大改变。互联网上数据多由半结构化XML表示,XML已成为大数据信息交互、存储的格式标准。作为个性化智能服务基础平台的分布式计算既要具有良好的扩展性,还需在动态、异构、分布的互联网资源中达到高度的适应性。发布/订阅系统的多对多、动态即插即用、松耦合、异步通信等特点及高度适应以信息为中心的动态网络,可处理移动互联网络环境中的海量数据。在飞跃式发展的移动互联网环境下,处理复杂结构的实时主动数据流成为研究热点。传统的发布/订阅系统缺乏对订阅请求语义层面的理解,过滤匹配结果可能包含不相关信息,同时对订阅中含不确定元素无法精确判断,因此在表达能力、过滤处理、扩展性等方面存在问题。本文针对移动互联网环境下可处理海量信息的分布式发布/订阅系统进行研究,主要从数据处理和过滤匹配两方面分析探讨,并提出更有效的算法。本文首先对主动数据进行预处理,提出一种XML相似度计算方法。通过深入研究移动互联网环境中发布/订阅系统中移动性终端和代理节点所接收的XML数据特点及相似度计算的理论基础,分析归纳相似度计算研究中的不足,提出一种XML文档相似度计算方法,该方法能够计算任意XML文档间相似度,可在过滤匹配预处理阶段快速对数据流分类,提高发布/订阅系统的准确性和效率。其次,在相似度计算作为预处理的基础上,提出基于后缀树自动机过滤匹配算法。该算法利用树自动机技术,引入后缀思想,采用无秩树自动机的自底向上push模式方法,处理含有子孙轴和不确定元素复杂结构的订阅请求,能够有效减少数据处理过程中大量相同转移的中间状态,避免了状态集的重复计算。最后,针对本文提出的算法与经典发布/订阅系统过滤匹配算法进行分析比较,并得出仿真结果。仿真实验结果表明:在表达能力、效率、处理不确定因素的能力及扩展性等方面,本文提出的算法均优于其他经典算法。