洋葱地址搜集与隐藏服务内容分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zxhw888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Tor作为暗网中使用人数最多且最为活跃的网络之一,它提供的隐藏服务拥有完善的匿名通信机制,逐渐被非法活动所滥用,给网络安全和社会稳定带来隐患和威胁,因此针对Tor隐藏服务的分析和研究变得十分重要,具有实际意义。由于Tor网络中访问隐藏服务所需的洋葱地址不进行大规模公开,因此进行隐藏服务内容研究首先需要大量搜集洋葱地址。本文针对洋葱地址搜集效率较低的问题,提出了基于Docker搜集体系;针对特征向量代表性较弱,存在干扰词等问题,提出了基于类别特征词的隐藏服务特征向量提取方法,为基于机器学习的隐藏服务多分类做出铺垫,具体工作包括以下方面:1.针对洋葱地址对应隐藏服务加载较慢导致的搜集耗时长且效率低的问题,使用Docker虚拟化技术,对洋葱地址搜集和隐藏服务发现方法进行了扩展,提出基于多因素的Docker任务分配方法,对Docker容器的任务量进行了合理分配,使各个容器完成隐藏服务搜集的耗时相近,进一步缩短了整个系统搜集洋葱地址和隐藏服务的总耗时。使用本文提出的基于多因素Docker任务分配方法和传统多线程方法相比,搜集耗时减少了61.9%。2.基于隐藏服务内容的特点,提出了隐藏服务特征提取方法,首先为每个类别构建类别特征词集合,基于隐藏服务内容和标题,依据TF-IDF权重或词频等信息,提取特征词,基于类别特征词集合,对特征词进行筛选,只考虑其中和类别关联较强的词语,从而排除干扰词的影响,生成更具有代表性的特征向量;为了利用词语的语义语境信息,使用词嵌入模型对词语进行表示,进而表征隐藏服务内容,得到包含语义信息的特征向量。通过串行特征融合,对不同方法得到的特征向量进行组合,实现特征互补,实现隐藏服务内容的特征化和向量化。3.提出了基于机器学习的隐藏服务内容分类方法,针对经过处理的隐藏服务内容和标题,使用本文提出的特征提取方法,构建特征向量,通过特征融合的方式,对不同提取方法生成的特征向量进行融合,形成不同的训练集,训练多种机器学习分类器,对其中效果较好的分类器进行调参优化。使用集成学习的方式进行多模型融合,进一步提升分类的准确率和泛化能力,融合模型分类准确率达到了96.8%。
其他文献
学位
学位
学位
学位
学位
学位
移动自组织网络是一种无需人为管理、不依赖任何固定基础设施,可以随时随地快速部署的无线网络,广泛应用于战场通信、智能交通、救援救灾等场景中。但是激增的业务量、多样的业务种类以及频繁变化的拓扑结构等网络环境的变化导致移动自组织网络难以提供高质量的信息传输服务。传统的按需路由协议、表驱动路由协议等已不再适应多变的移动自组织网络,基于自适应的各类路由切换策略成为新的研究热点。该类策略可依据网络整体的环境变
王维在中年时期营建辋川别业,其诗作中有相当一部分是描写辋川世界之作,而收录于《辋川集》中的王维与裴迪同咏的20首诗歌,却呈现出与其他辋川诗作迥然不同的特色。《辋川集》诸诗作之所以呈现出超凡脱俗的气质,原因在于王维试图在现实的辋川别业之上构建“理想的世界”,追寻现世中安顿心灵的“净土”,以实现对于客观园林的超现实化的占有。
学位
随着国家高等教育的持续发展以及高校人事管理体系的信息化改革的不断深入,对于科研工作者学术评价和学科管理提出了更高的要求。现阶段,学术论文仍是最直接的科研工作评价指标,对于教师、学生发表的论文的统计和归属工作也愈发繁重。过去基于人工进行论文的检索匹配,已不能很好的满足高校的科研工作需求,因此有必要开发自动化的论文采集管理和分析系统。本文从科技工作者的实际需求出发,开发了一套基于Web的论文采集分析系