论文部分内容阅读
国家“互联网+”战略的提出之后,互联网行业兴衰的影响已经不再仅仅局限于一个行业的内部,而逐渐成为了 一件关系国计民生的大事,依靠互联网驱动,促进跨界融合、刺激产业创新,从而带动整个经济的发展已经成为了我们未来发展的重要方向。目前我国互联网行业发展喜人,截止2014年底我国网民数量已经达到6.49亿。然而随着互联网行业的快速发展,所带来的问题也逐渐增多。一方面各种新兴业务的增加,以及用户规模的不断扩大,使互联网流量激增,对服务质量的保证带来巨大压力。另一方面,随着用户与互联网更加紧密的接触,越来越多的用户数据被我们所获取,但如何从如此庞杂的特征数据中提取出真正有价值的数据也变成了一项十分艰难的挑战。面对如此问题,在如此高速的流量场景下,传统的数据处理工具已经远远不能满足我们的需求。因此,一个能应对高速流量的数据存储分发系统的引入,以及更加完善的处理机制的提出,正是我们研究的目标。本文首先介绍了 Hadoop框架下的各组件基本功能和Kafka的工作原理以及其在复杂系统下的重要作用。其次,在HadOop技术的基础上,基于Kafka的组件整合能力,本文提出了网络流量处理系统的四层体系结构,将网络流量的采集、存储、传输、处理和分析等独立的功能整合到—起,形成具备完整功能的网络流量存储分发系统。再次,我们对在本架构中处于数据分发核心地位的Kafka组件做了详细的性能测试,以保证其在大流量,高速度场景下的应用性能。然后,本文重点研究了网络流量处理系统的数据层。详细介绍了数据层的非实时组件——基于Hadoop的网络流量数据控制组件,以及实时组件——基于Storm的流记录控制组件。通过对这两个组件的研究,解决了海量网络流量分析领域中的一些重要问题。最后,本文以DNS分析系统以及用户社区分析系统为例验证了本系统在网络流量监测以及用户行为分析领域的良好表现。