基于Kafka的高速流量存储分发系统的研究与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:bach88888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国家“互联网+”战略的提出之后,互联网行业兴衰的影响已经不再仅仅局限于一个行业的内部,而逐渐成为了 一件关系国计民生的大事,依靠互联网驱动,促进跨界融合、刺激产业创新,从而带动整个经济的发展已经成为了我们未来发展的重要方向。目前我国互联网行业发展喜人,截止2014年底我国网民数量已经达到6.49亿。然而随着互联网行业的快速发展,所带来的问题也逐渐增多。一方面各种新兴业务的增加,以及用户规模的不断扩大,使互联网流量激增,对服务质量的保证带来巨大压力。另一方面,随着用户与互联网更加紧密的接触,越来越多的用户数据被我们所获取,但如何从如此庞杂的特征数据中提取出真正有价值的数据也变成了一项十分艰难的挑战。面对如此问题,在如此高速的流量场景下,传统的数据处理工具已经远远不能满足我们的需求。因此,一个能应对高速流量的数据存储分发系统的引入,以及更加完善的处理机制的提出,正是我们研究的目标。本文首先介绍了 Hadoop框架下的各组件基本功能和Kafka的工作原理以及其在复杂系统下的重要作用。其次,在HadOop技术的基础上,基于Kafka的组件整合能力,本文提出了网络流量处理系统的四层体系结构,将网络流量的采集、存储、传输、处理和分析等独立的功能整合到—起,形成具备完整功能的网络流量存储分发系统。再次,我们对在本架构中处于数据分发核心地位的Kafka组件做了详细的性能测试,以保证其在大流量,高速度场景下的应用性能。然后,本文重点研究了网络流量处理系统的数据层。详细介绍了数据层的非实时组件——基于Hadoop的网络流量数据控制组件,以及实时组件——基于Storm的流记录控制组件。通过对这两个组件的研究,解决了海量网络流量分析领域中的一些重要问题。最后,本文以DNS分析系统以及用户社区分析系统为例验证了本系统在网络流量监测以及用户行为分析领域的良好表现。
其他文献
对于以聚焦日常课堂、透析实施难点、凸显典型启示,旨在以点带面和重在优秀典型滚动与辐射的体育(与健康)新课程推进实施的实践性行动研究,“案例研究法”不但是一线体育教师
基于倾斜光纤光栅模式耦合理论,研究了倾斜角度对光纤光栅光谱特性的影响,并应用OptiGrating软件进行数值模拟仿真。通过对不同倾斜角度得到的光纤光栅反射谱及透射谱的研究
教学资源的开发关系到创新创业教育的成败,把教学资源不断地投入到教学实践中,才能保证创新创业教育的质量。改善办学资源,使学生有更多的实践机会,是加强学生创新创业教育的
本文概述了对疾病控制措施进行经济学评价的一些方法。
<正>大数据是剔除了个性化元素和背景信息的标准化数据,需要庞大的数据支持,以备发现,是定量研究法。它的风险在于,人们会倾向于过分依赖从某种算法得到的结果来做决策,只关
综述了析氢反应中高催化活性电极的研究现状,并对其研究前景进行分析。
在今天,艺术家的地位与同门类的老祖宗工匠们相比,直有天壤之别。如篆刻在明末,许多大名士都擅奏刀,且有印作传世,但惟恐与&#39;工匠&#39;沾边,故都甘愿匿其姓名,不愿以印人
在煤矿生产和开采过程中需要应用多种开采方法和技术,为了不断提高煤矿开采的生产效率,要根据煤矿开采的实际情况,选择合适的开采方法和开采技术,实现煤矿开采的自动化和机械
民营企业是社会治理体系应予接纳和认可的主体力量之一。一方面,民企对外履行各种社会责任,协同提供公共服务,引领服务共享意识,可概括为衍生性社会治理参与;另一方面,民企对
介绍了输煤系统带式输送机机头溜槽的结构组成及功能,从带式输送机机头卸料轨迹计算、溜槽断面和倾角的确定、停机来煤处理、抗磨和缓冲撞击等方面提出输煤系统带式输送机机