论文部分内容阅读
网络流量数据分析技术,作为网络、信息安全防护中的关键步骤,在犯罪取证、威胁感知、问题溯源等任务中发挥着重要作用。面对爆炸式增长的数据流量,集中式的数据分析模式难以满足低延迟处理、低带宽占用、隐私保护等多方面的需求。边缘计算模式为上述问题提供了一种可行的解决方案。然而,面向数据协同分析的边缘节点设备,需要从系统的协作性、处理的高效性及实时性等多方面进行设计和优化。针对以上技术挑战,本文选用具有多核并行、协处理器加速和低功耗等特性的多核网络处理器为平台,从架构设计、调度算法、内存拷贝及数据挖掘算法优化多个层次,对边缘采集分析设备进行了深入的研究。本文主要研究成果和贡献如下: 1.面向协同分析的边缘节点架构:针对集中式分析模式下,边缘节点设备分析功能受限的问题,提出了基于多核处理器的边缘数据采集分析节点架构。通过在多核系统上部署异构操作系统,实现高效的数据采集与灵活的数据分析算法的部署。分别设计了数据采集单元、数据分析单元,并通过多核并行设计、基于亲和性的数据包调度、流式封装结构及聚合日志发送等优化策略,提升了系统的处理性能。实验结果表明,所提边缘节点设备架构能够满足高速网络数据实时采集与分析的性能需求。 2.多核数据包调度算法:针对多核改进流水线软件架构下,多协议数据包处理阶段的指令亲和性缺失问题,本文分析和研究了各处理阶段的协议相关性,引入了多协议处理映射模型和阶段处理时间模型,最终提出了协议感知的数据包调度算法PAPS。该算法以数据流为调度基本单位,将贪心策略和自适应调整系数引入HRW(Highest Random Weight)负载均衡算法。实验结果表明,算法可以保证多核负载均衡的同时,能够提升协议相关阶段的指令缓存命中率,相对于HRW算法,单数据包的平均处理时间降低10%以上。 3.数据载荷封装交付算法:针对网络高层协议分析过程中,数据包载荷封装交付环节的低效数据缓存和传输问题,本文引入了缓冲串加法模型,并建立了缓存状态转移模型,最终提出了流式的载荷字段封装交付算法SFED。SFED算法通过合理的嵌套AVP(Attribute Value Pair)封装,实现了长字段内容的流式交付,避免了对字段的缓存操作;同时,对短字段内容应用了聚合发送策略,有效提升了载荷的交付效率。实验结果表明,相对于朴素载荷字段封装交付算法PFED,SFED算法在系统单核平均吞吐量和CPS(Connections per Second)两个指标上分别提升可达45%和77%。 4.边缘数据分析算法优化:(1)以提升数据流识别算法在边缘分析场景下的鲁棒性和实时性为目标,本文基于BoF(Bag of Flows)模型以及指数衰减窗口结构,提出了EDW-Voting数据流识别算法。该算法提取数据流协商过程特征作为机器学习算法输入,保证分类识别过程的实时性。实验结果表明,在少量训练样本场景下,该算法将机器学习分类准确性提升达到10%,同时,分类时间较固定大小滑动窗口算法FSW-Voting更短。(2)以网络异常检测算法在协作分析模型下的分层部署为目标,本文提出了云端与缘端协作的异常检测架构,并以此为基础,提出了基于聚类算法和纯度阈值映射的缘端快速响应异常检测算法PCC。实验结果表明,PCC算法能够识别出网络流量中50%以上的攻击数据流,同时,分类准确性指标F1-score达到96.6%,误报率只有2.3%,从而能够降低云端负载及通信开销,减少总体的攻击响应时间。