论文部分内容阅读
匿名通讯是通过一定方法隐藏数据流中的通讯关系,使攻击者无法直接获取或推测出双方通讯关系或任意一方的身份信息的技术。它为正常用户的提供了身份隐私服务的同时,也容易被恶意用户利用以隐藏痕迹避免追踪。因此,研究匿名通讯检测技术对改进匿名通讯以及打击利用匿名通讯的犯罪方面具有重要意义。Tor是目前最为广泛使用的匿名通信工具。为了对抗流量分析攻击,Tor采用了多种流量混淆插件。Obfs是Tor的常用混淆插件之一,基于加密和填充达到隐蔽流量特征的目的。Obfs4使用了抗静态特征识别的改进型椭圆加密算法与抗报文长度特征分析的随机填充机制,进一步提高协议匿名性。实现面向真实世界的Obfs4流量检测面临多个挑战:1)全随机性:Obfs4遵循全随机化设计,使用随机椭圆加密和随机填充,拥有极强的抗静态特征检测和抗报文长度特征检测的能力。2)海量流量:检测系统需要能承受海量数据,同时满足高精度和实时性。3)大量相似流量:真实环境存在大量类似Obfs4的混淆协议、以及正常流量中的相似数据。4)高精度与实时性的矛盾:检测算法精度提高,会导致时间效率的下降,同时满足时间和精度的要求面临很大困难。为了应对这些挑战,本文提出了一种基于多级过滤、动态和静态特征结合的Obfs4流量检测方案,实现了高精度和实时检测的目标。主要工作和贡献如下:(1)针对高精度与实时性的矛盾,提出多级过滤的策略,粗粒度快速过滤方法,细粒度精确识别,实现在保证高精度的同时满足资源占用和时间效率的需求。(2)针对Obfs4抗静态特征的随机化设计以及大量正常通信流量的非随机性特征,提出Obfs4随机性检测方法,将握手包负载进行按位重组后检测其随机性,并根据结果调整偏差函数的阈值。同时,为了控制实际使用中的资源占用,本文对比了不同负载长度对检测结果的影响并选出最优结果,最终达到提高时间效率,降低资源占用的目的。(3)针对大量干扰数据组造成的高误报率,分析Obfs4协议握手的时序特征,选择对Obfs4的握手部分数据包进行重组,根据Obfs4确认包收发时序特征与其他干扰协议进行区分。同时,为了应对在实际环境中对庞大的待检测数据,本文分析Obfs4的用户行为,采用分层次的报文长度过滤的方法,排除了近90%的干扰数据,极大的控制了误报率,并提高了检测效率。(4)经过大量样本数据特征相关性分析和效度分析,提取出包括方向、长度、方差和信息熵在内的4类16种流量特征,同时选用4397条正例与5128条反例,对SVM的惩罚系数、分片大小以及训练模型进行优化,并最终确定最优的特征和模型参数。实验表明,本方案识别Obfs4的流量的精确率达到了 99%以上,检测时间复杂度低于8000 CPU周期/秒,能满足真实环境对时间复杂度和精度的要求。