论文部分内容阅读
数据是信息的载体,随着信息化的不断发展,数据在现代社会生活中承担着越来越重要的角色。社会网络分析就是利用图论、数据挖掘等技术手段从社会网络数据集中寻找有用的信息。由于社会网络分析所处理的数据通常是很庞大的。因而对数据处理的能力要求很高。大规模通信社会网络数据分析与可视化系统是一个专门处理通信数据集的社会网络分析工具。它提供了社会网络分层扩展等一系列数据分析与可视化的基本操作。对于该系统来说,图的分层扩展涉及到在海量数据中进行查询,因而对数据查询效率有着很高的要求。采用传统的关系型数据库Oracle或SQL Server等虽然能够满足复杂条件的查询,但在处理TB级的大规模原始数据集时就显得力不从心。同时,在网络分层扩展时要用到广度优先搜索算法,需要在海量原始数据中进行遍历操作,这在关系数据库中的效率是很低的。以上情况就迫切需要我们解决数据查询和处理中存在的瓶颈。在分析了现有分布式存储系统与云计算平台的基础上,本文提出了一种基于Hadoop平台的分布式数据存储和查询改进方案。本文重点阐述了通信数据分布式存储与查询在Hadoop平台上的实现。据Hbase数据库的特色设计了通信社会网络数据模型。实现了基于Hbase数据库上的条件查询。并对设计好的数据模型进行了优化。最后在Hadoop数据服务平台上实现了面向软件客户端的数据访问服务。设计了适合通信社会网络数据特色的Map/Reduce算法。通过Map和Reduce函数实现了数据的并行查询和处理。在数据查询过程中,还将数据遍历过程放在Reduce函数中,从而使广度优先搜索算法的层次遍历过程也能够并行运行。这在很大程度上优化了数据查询和分层扩展的效率。通信数据分布式存储与查询方案在Hadoop平台上的成功实施具有很重要的意义。Hadoop平台只需要部署在普通的廉价PC机上即可运行,数据处理能力却很强,因此具有很高的现实意义与应用价值。