论文部分内容阅读
伴随着Internet的飞速发展,网络通讯在人们的日常工作和生活沟通中扮演着不可或缺的角色。其中,即时通讯凭借着高速、便捷以及免费等特性受到公众的喜爱。目前,许多企业使用或者开发出安全独立的内部即时通讯系统用于处理内部通信和业务沟通。随着用户量的巨增,大量的用户数据及不断拓展的通讯模块将对后台服务器提出艰巨的挑战。本文对分布式架构下的海量数据存储与处理进行了基础的研究,在HBase分布式存储与数据检索的基础上,提出了一种基于多级哈希表索引的数据查询优化算法;并在多线程并发处理的基础上设计并实现了分布式架构的转发服务器模式,使得即时通讯系统能够在中等用户规模、大数据量背景下依旧拥有高效的数据分析与处理性能。本文的具体工作如下:(1)设计并实现了一种企业IM系统的系统结构、组件功能、数据模型和通讯模型。该企业IM系统的数据存储与分析处理均基于分布式架构,在C/S通信模式下分别为企业员工和项目团队提供基于个人和群聊的即时会话服务。(2)在分析企业分布式服务器的特点的基础上,设计了分布式架构下的转发服务器模式,该模式充分发挥了分布式架构下服务器集群多机高性能并发处理的优势,能够满足中等乃至大规模用户和数据量情性下的应用需求。(3)针对大规模数据量下HBase数据检索效率低的境况,提出了基于多级哈希表索引的数据库优化查询算法。该算法将HBase的时域信息映射到二维时域空间,并使用K-Means聚类算法对时域对象进行多级区域划分,最后根据划分后的子区域构建多级HBase哈希索引表。实验证明,该算法在数据量巨大的情况下能够显著提升数据库的检索性能。基于HBase存储和分布式架构下即时通讯系统能够满足多用户量下的服务器集群高性能存储和处理需求,作为企业信息化办公系统的分支,不仅很好地提供了企业内部信息安全通讯服务,而且与企业业务紧密结合,为系统功能的进一步扩展和升级打下良好根基。