论文部分内容阅读
                            
                            
                                网络作为一个开放式的平台,有一系列的让用户可以分享资源给他人的服务,网盘、资源共享网站等一键下载资源服务由于其操作简单、下载速度快等特点成为音视频资源最主要的分享途径,同时这类服务称为CLS服务。如何从骨干网节点海量的网络流量中获取下载CLS音视频资源HTTP会话的分享链接对于骨干网流量的网络审查、网络取证、网络流量监控、视频版权保护、复杂网路环境信息内容唯一标识、海量流量中的数据链接汇聚和关联,提取网络流对象等具有重要意义。为此,本文研究了一种基于追踪下载资源用户cookie的在线溯源方法。该方法首先从骨干网节点的海量流量中识别出传输音视频资源的HTTP会话并针对依次到达的资源数据包碎片使用累积哈希的方法计算资源的标识ID;然后,根据HTTP话单的cookie相似度分析,利用倒排索引的方法攫取下载资源对应的URL跳转链;最后通过提取同一资源对应的多个URL跳转链的唯一公共节点实现最终的溯源。进一步,本文实际开发了一个针对骨干网节点流量的CLS音视频资源溯源系统—cookieTracking。该系统采用了分布式流量处理架构,前端基于流量捕获平台获取TCP流量,解析所需HTTP话单,识别下载资源HTTP会话计算其资源ID,并通过socket以及Google Protocol Buffer发送至后端的流量处理服务器;后端负责下载资源HTTP话单的溯源:首先,采用了Reactor模式的事件处理设计,主线程将前端发送的消息放入HTTP话单队列,多个工作线程通过哈希表建立cookie项及location与HTTP会话的关联;其次,溯源线程根据倒排索引的方法追踪关键cookie进而获取URL跳转链,入口页面追溯线程通过合并同一资源对应的多个URL跳转链的唯一公共节点实现溯源。最后,通过爬虫程序访问该分享链接,比较前后下载资源的ID值验证系统溯源的正确性。此外,cookieTracking采用了前端数据包接受及发送的零拷贝技术、工作线程数目动态调整机制、线程池机制优化系统的性能。实验结果显示在平均带宽为2Gpbs的测试流量中持续运行5*24h,系统的平均查准率、查全率、获取时间分别为:85%、70%、5000ms,表明该方法具有很好的性能和可扩展性。