论文部分内容阅读
随着互联网用户的低龄化趋势发展,我国青少年网民数量不断增长。网络上的大量不良图片信息(特别是淫秽色情类图片)严重影响了青少年的健康成长。同时,违法犯罪份子利用不良图片易于传播的特性,诱使用户下载木马、病毒等恶意软件,破坏互联网生态环境,给网络监管带来了很大困难。由于近几年社交网络的迅速发展,导致海量图片信息在网络上快速传播,大规模的图片信息对不良图片的过滤技术的性能有了更高的要求。本文研究总结了已有的基于内容的不良图片过滤方法,分析了其中基于感兴趣区域的方法、基于图片局部特征的方法和基于深度学习的方法的优缺点。与其它方法不同的是,基于深度学习的方法不再依赖于人为设计不良图片的特征提取,其通过大规模样本的训练自我进行特征学习的特点具有更好的可扩展性。因此,本文主要研究基于深度学习的不良图片过滤,本文的主要研究工作如下:1)本文提出一种基于多样性特征分类和深度残差网络的不良图片过滤框架。不同于已有的方法将色情图片的检测和过滤作为二分类问题,本文方法将不良图片分为7个更细粒度的类别,将正常图片分为包含人物和不包含人物2个类别,并通过反馈修正的训练策略以便模型挖掘出更优质的特征。为了解决实际应用中图片的不同尺度对准确率的影响,采用一种单边滑动窗口的测试方法。在包含2.2万张不良图片和1.8万张良性图片的数据集上的实验结果表明,本文方法可以以较少的测试时间达到较高的准确率。2)针对不同方法的实验数据集差异较大、难以对不同研究方法进行直接比较的问题,本文分析了构建不良图片测试数据集的要素。这些要素包含了不同方法的过滤难点以及不良图片的复杂多样性特征,研究者在构建数据集时应该对数据集是否满足相应要素进行描述,以增加算法过滤准确率的可靠性和可比较性。3)本文设计并实现了网页不良图片过滤系统,并对本文方法的可行性和有效性进行了验证。系统的监控线程通过Windows的ShellWindows接口获取当前IE浏览器访问的URL列表,并对每一个URL分别下载其网页上的图片进行不良图片的过滤,当发现不良图片时,将该URL标记为不良网页并重定向至屏蔽访问页面,从而实现对包含不良图片的网页的过滤。