论文部分内容阅读
HTTP流关联是指从网页浏览产生的HTTP流量中识别出包含访问页面URL的HTTP请求,将它所在的TCP流定义为主流,并将用于访问网页内嵌对象的HTTP请求所在的辅流关联到该主流上。HTTP流关联可应用于后向收费、网络故障定位、Web流量分析等领域。传统HTTP流关联算法有其固有的缺点,如基于IP与Think times的HTTP流关联算法无法应用于采用CDN加速技术所产生的HTTP流量:基于Referer与Think times的HTTP流关联算法则需要对HTTP请求内容进行解析,且无法处理加密流量:主动HTTP流关联算法则依赖于浏览器插件,只能作为一种辅助方法。本文提出基于DFI的HTTP流关联算法是一种基于流量行为的应用识别技术,无需解析报文应用层内容,通过TCP层以下的信息便能实现HTTP流关联,算法效率高且将来可以移植到HTTPS流量上。本文研究了互联网广告流量以及CDN加速技术对HTTP流量的影响,提出基于HTTP请求的流关联算法,通过该算法研究HTTP流量的特征,在此基础上提出基于DFI的HTTP流关联算法。本文的主要工作有:1)针对传统基于DFI的HTTP流关联算法无法处理采用CDN加速服务的HTTP流量以及互联网广告流量对HTTP流关联中主流识别部分的影响,本文研究CDN加速技术以及互联网广告流量对HTTP流关联的影响后提出相应的解决方案,并取得了较好的关联结果:2)针对手动采集和标记HTTP流量效率低下问题,提出了一种基于Selenium可自动模拟用户操作浏览器行为的方法,并实现了批量访问URL并收集相应HTTP流量的系统;3)为研究HTTP流量的特征,根据HTTP协议的特点提出了基于HTTP请求的流关联算法,并通过该算法实现对HTTP流的关联;4)在上述工作的基础上提出了基于DFI的HTTP流关联算法,并通过与基于HTTP请求的流关联算法计算结果对比,验证DFI关联算法的正确性。实验结果表明,本文提出基于DFI的ITTP流关联算法可以很好地解决HTTP流关联问题。