论文部分内容阅读
Tor作为暗网中使用人数最多且最为活跃的网络之一,它提供的隐藏服务拥有完善的匿名通信机制,逐渐被非法活动所滥用,给网络安全和社会稳定带来隐患和威胁,因此针对Tor隐藏服务的分析和研究变得十分重要,具有实际意义。由于Tor网络中访问隐藏服务所需的洋葱地址不进行大规模公开,因此进行隐藏服务内容研究首先需要大量搜集洋葱地址。本文针对洋葱地址搜集效率较低的问题,提出了基于Docker搜集体系;针对特征向量代表性较弱,存在干扰词等问题,提出了基于类别特征词的隐藏服务特征向量提取方法,为基于机器学习的隐藏服务多分类做出铺垫,具体工作包括以下方面:1.针对洋葱地址对应隐藏服务加载较慢导致的搜集耗时长且效率低的问题,使用Docker虚拟化技术,对洋葱地址搜集和隐藏服务发现方法进行了扩展,提出基于多因素的Docker任务分配方法,对Docker容器的任务量进行了合理分配,使各个容器完成隐藏服务搜集的耗时相近,进一步缩短了整个系统搜集洋葱地址和隐藏服务的总耗时。使用本文提出的基于多因素Docker任务分配方法和传统多线程方法相比,搜集耗时减少了61.9%。2.基于隐藏服务内容的特点,提出了隐藏服务特征提取方法,首先为每个类别构建类别特征词集合,基于隐藏服务内容和标题,依据TF-IDF权重或词频等信息,提取特征词,基于类别特征词集合,对特征词进行筛选,只考虑其中和类别关联较强的词语,从而排除干扰词的影响,生成更具有代表性的特征向量;为了利用词语的语义语境信息,使用词嵌入模型对词语进行表示,进而表征隐藏服务内容,得到包含语义信息的特征向量。通过串行特征融合,对不同方法得到的特征向量进行组合,实现特征互补,实现隐藏服务内容的特征化和向量化。3.提出了基于机器学习的隐藏服务内容分类方法,针对经过处理的隐藏服务内容和标题,使用本文提出的特征提取方法,构建特征向量,通过特征融合的方式,对不同提取方法生成的特征向量进行融合,形成不同的训练集,训练多种机器学习分类器,对其中效果较好的分类器进行调参优化。使用集成学习的方式进行多模型融合,进一步提升分类的准确率和泛化能力,融合模型分类准确率达到了96.8%。