微博业务流解析及管理系统

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:kick3160288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展深入影响着人们的日常生活。其中,微博作为近年来热门的实时信息分享平台,拥有众多的使用者;每天都会产生大量的微博数据。对微博数据进行有效的监控和管理是网络管理的一项重要内容。而海量的网络数据中存在多种类型的业务流,因此,准确高效地提取出微博业务流有重要的意义和应用价值。本文主要研究了网络数据捕获技术、微博业务流重组和解析技术,并在此基础上设计与实现了一个高性能的微博业务流解析及管理系统。本文所做的具体工作和创新之处列举如下:1.实现了基于PF_RING的网络数据捕获机制。该机制能够显著提高捕获效率,而且能够与基于Libpcap捕获数据的应用无缝集成,有良好的拓展性。2.改进了基于Libnids的TCP重组算法。原基于Libnids的TCP重组算法会重组捕获到的所有TCP报文,其时间和内存消耗巨大,无法满足本文的设计要求。鉴于此,本文结合微博报文识别字段改进了重组算法,在识别微博报文的基础上仅针对微博报文进行重组。由于网络中微博报文所占比例很小,因此,改进的重组算法显著降低了时空复杂性。3.本文研究了正则表达式、Aho-Corasick算法以及Wu-Manber算法解析微博业务流的性能,针对这些算法性能不佳的问题,结合微博业务流中待解析字段在TCP会话中的分布情况,提出了STLFilter算法;该算法对微博TCP会话中待解析的字段进行分区域解析,显著提高了微博业务流解析的效率。4.本文设计与实现的系统利用WebSocket协议,实现了微博解析数据的实时可视化,提供对微博数据的多种管理功能。实验验证表明:与本文研究的其他解析算法相比,本文提出的STLFilter算法解析一个微博会话的平均时间消耗减少了82.05%以上;与基于Libnids重组算法的系统相比,采用改进重组算法的系统其时间消耗、CPU占有率以及内存占有率分别减少了28.00%、41.48%和86.75%。通过对系统测试结果的分析,证明本文设计与实现的系统性能良好,达到预期的设计目的。
其他文献
随着计算机技术的迅速发展,招生考试工作信息化程度不断提高,北京教育考试院每年通过对各级各类考试的组织,积累了大量的考试数据。这些数据隐含着学校教育的真实现状以及学科教
学位
高维数据通常有几十甚至成百上千个属性,而很多高维数据的类仅存在子空间内。子空间聚类算法尝试在数据集的不同子空间上探测和发现有意义的簇类。   一种新的高维数据子空
多机器人编队控制是多机器人系统研究中一种常见的协作问题,是许多多机器人协调合作问题的基础。近年来,随着多机器人系统在军事、工业、航空航天等领域的广泛应用,多机器人
随着空间信息科学理论与技术的深入研究和广泛应用,遥感技术的应用已渗透到人类生存的自然环境、国防技术、国民经济和社会生活的各个方面,在人类赖以生存的生产与生活中起着举
作为一个开源、高效的虚拟机,Xen被广泛地应用和研究。Xen最初只支持半虚拟化,随着Intel VT技术的推出,使得Xen能够支持完全虚拟化。   Xen默认采用信用调度算法,在单独运行I/
近年来,国内外食品安全问题接连不断,食品安全问题己成为当今各国政府、消费者和科技界广为关注的焦点问题之一。为此,建立完整有效的食品安全追溯体系势在必行。我国现有的食品
学位
知识发现是当前计算机科学与人工智能领域最为活跃的研究课题之一,粗糙集由于其特有的优势,成为了知识发现领域非常重要的理论。而连续属性离散化是利用粗糙集进行知识获取所
分类是机器学习的主要任务之一。生活中的一些决策问题便可以看作分类问题,比如与人们健康紧密相关的疾病诊断。分类算法将会从训练样本中训练合适的模型从而给出更加智能的
工作流的概念起源于生产组织与办公自动化领域。工作流就是工作流程的计算模型,即将工作流程中的工作任务前后组织在一起的逻辑和规则,在计算机中以恰当的模型进行表示并对其实
随着信息技术的不断发展,抄袭正变得越来越容易和难以防范。在程序设计类课程作业和在线测试的考评中,学生相互抄袭的现象也普遍存在。澳大利亚蒙纳什(Monash)大学对其学生中