HTTP协议采集系统的设计实现与应用

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:zpe3werv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络与计算机普及并渗透千家万户的当今社会,我们迎来了大数据DT时代,因网络中大部分访问报文由HTTP协议承载,高效实时的采集HTTP数据并挖掘其中的信息有助于更好的认知真实网络数据蕴藏的价值以及了解网民的行为习惯,进而可以优化相关网络服务并可以更有针对性的为用户提供服务。本文首先讲述了万维网中HTTP协议的工作原理及报文特点并介绍了分布式计算大数据平台的原理,为后文系统开发与大数据分析处理奠定理论基础。然后设计并开发了 HTTP协议采集系统,该系统可以实时的从网卡接收数据,对乱序到达的报文进行重组,结合多模匹配算法根据用户定义字段去解析报文,生成格式化话单。完成开发后,系统通过了功能测试及性能测试。为了使系统更好的适配真实网络环境,在分析了采集系统性能影响因素后,本文从软件结构和报文解析两个角度对系统进行优化提升。随后将HTTP协议采集系统部署于核心网及校园网中,实时采集数据,分别针对核心网和校园网的话单数据进行分析,了解不同群体上网产生的流量特征及HTTP报文特点。此外,本课题还利用话单数据对斗鱼软件进行用户留存及操作行为分析,将HTTP大数据分析应用于商业软件分析中,帮助软件更好的了解用户群体。最后论文对HTTP协议采集系统的设计实现与应用进行了总结与展望。
其他文献
H管具公司是中石化一家较大规模的管具服务公司,可同时满足100个钻井队的施工需求。由于胜利油田已进入勘探开发中后期,产量成本压力越来越大。管具公司面临投资减少、定额结
近年来,赣东北供电公司在上级组织的正确领导下,紧紧围绕“谋发展、重管理、促和谐”工作思路,坚持以人为本,以离退休党支部为核心,阵地建设为依托,充分发挥教育、管理、服务
随着物流社会化、精细化程度越来越高,物流专业人才的需求缺口越来越大,但同时高职物流毕业生失业率和再择业率也居高不下。产生这种"供需矛盾"的原因,是多方面的。文中着眼于
南水北调西四环暗涵位于西四环主路下,主暗涵穿越多座桥梁、地铁及建筑物,如何在暗挖施工中保证施工安全及建筑物不受影响是浅埋暗挖法施工中的关键。以京石段应急供水工程(北京
改革开放20多年来, 中国的教育事业成绩斐然, 然而农村教育却是“另一种现实”, 即面临供给不足与供给不良的双重困境。本文以有效需求理论为视角, 对我国农村教育的供需现状
分子激发能的研究是理论计算化学研究中的热点和难点之一。由于激发能包含分子的内在结构信息和电子性质,精确地预测包括电子跃迁吸收能与发射波长在内的分子激发态性质已然
<正>学校发展需要不断变革,而校长的自主管理能力直接影响着变革的方向和结果。作为一个复杂而艰难的多因素综合过程,学校变革需要校长具备以下四种能力:问题诊断与战略预见
随着纳米电子、三维堆叠芯片等技术的发展,散热问题成为限制微电子领域发展的重要原因之一。目前,热界面材料(Thermal Interface Material,TIM)主要以导热颗粒填充聚合物所得的复合材料为主,室温硫化硅橡胶所具备的弹性、绝缘性和热稳定性都符合热界面材料的要求,并且可以在室温下完成交联硫化反应。本文采用溶液共混复合法以SiC、Al、Al_2O_3、BN为导热颗粒填充到二甲基硅橡胶中
原审计署审计长李金华说过:"审计人员不掌握计算机技术将失去审计的资格"。在会计信息化高度发达的今天,传统审计方法和审计工具再也不能满足现阶段审计工作的需要。1998年,