论文部分内容阅读
随着互联网技术的迅猛发展,我国的互联网规模、网民数量以及网络带宽都在不断增加,种种数据反映了当今互联网环境变得日益复杂。本文结合网络现状,设计并实现了高效接收处理数据流的网络流分析系统。随后在该系统的基础上,进行了网络流提取技术的研究并提出了数据流差异评估方法,对不同网络服务类型的网络流进行了差异对比,用以发掘网络流的潜在差异。另外,通过对网络流关系提取技术的研究,本文设计并实现了用户群公共兴趣关联算法,这种算法可以根据兴趣节点的关联网络流特性达到挖掘用户群其他兴趣节点的目的。文章的主要研究内容可归纳为:1、研究高效实时数据流处理方法:设计并实现了一种面向通联日志的网络流分析接收框架,这种框架借助了传统socket API简单易维护的特点,同时利用多网卡优化、安全无锁缓冲区设计和负载分发等关键技术,实现了对数据流的高效接收与处理,经过实验测试,该系统最高可达到约460MB/s的接收速率。2、研究数据流差异评估方法:这种方法主要从会话和节点两个角度,对不同服务类型的网络流进行了评估,该评估方法主要涉及主节点与关联节点之间在单位时间间隔内的会话数量、主节点与关联节点之间单位时间间隔内所产生的上行字节与下行字节、主节点与关联节点之间单位时间间隔内平均单连接通信时长等特性,研究证明,这些关联节点的特性可以有效地反映主节点与其关联节点之间的通信特征,这种方法可以发掘并提取网络流间的差异。3、研究并实现用户关联算法:设计并实现用户群公共兴趣关联算法,以“群”的形式对用户所产生的网络流进行分析,这种算法的思想是,当一个用户群在某一时间段内存在多个高交集关联节点,那么这些节点之间一定存在着某种关联关系。通过用户群公共兴趣关联算法挖掘指定用户群的公共兴趣节点,有助于实现对未知网络服务的识别,实验证明该算法可以有效地发掘用户群的公共兴趣节点,经验证这些公共兴趣节点间存在一定的关联性。