论文部分内容阅读
在现在社会中,无论在国际上还是在国内人们都普遍认为色情网页会毒害青少年,危害他们的身心健康,阻碍他们的健康发展,有的甚至会因此而走上犯罪的道路。因此有必要针对色情网页中的各种信息特点来区分正常信息和不良信息。结合本文作者研究方向,本文选择了结合互联网中的色情图像网页的特征来识别不良图像网页。针对网页中内容的特点和网站的规模,监管力度,本文将含有不良图像的网站分为三类:较大较热的论坛,blog,他们监管较为严格;规模较小,或者监管较松的论坛,blog;以及含有大量色情图像的色情网站。本文选择了几个规模较大社区,例如国内著名的猫扑和天涯社区,监管较为松散的微软中文Live社区,以及数十个色情网站作为研究对象。本文首先选取不同的网站URL作为爬虫爬行的种子,然后选取不同的爬行策略,抓取不同深度的网页。提取网页中的图像数据,其他网页数据,作为进一步研究的资料。在上面数据的基础上,本文研究了内容包括色情图像的内容特征。研究从色情图像裸露出大量的皮肤区域这一特征出发,涉及的内容有:肤色面积与图像面积比,肤色所在矩形面积与,肤色连通区域的个数,最大连通区域与图像面积的比,肤色平均方差,肤色平均概率值等等,同时也研究了色情图像与周围多媒体网页内容之间的关系,比如整个网站中色情图像占图像内容的比重,色情文字网页的特征。但是有时候在正常网站或者色情网站的主角脸部特写时,也会被误判为色情图像。所以本文进一步研究了能够区分出的正常人脸比例特征。虽然在正常的网站中也有可能存在大量的不良图像,可是由于利用肤色特征判断图片是否为不良图片存在误判的情况,使得对正常网站的图像检测时,出现误判的数量和机会大大增加。但是正常网站的不良图像大部分都是常见频率较高的图像。可以对这些图像进行特征分析,判断,从而得到很好的结果。在这里使用了经过聚类的128维的SIFT特征对正常网站的图片来进行判断,使得在正常网站中的误判情况大大减小。最后本文给出了实验的环境,完整步骤,利用实验数据说明了实验理论的正确性。本文对实验结果进行了分析和说明,指出了各个方法的优点和不足之处。并给出了本文方法在不同场合下的使用建议。对于青少年而言,本文不仅要屏蔽不良信息,更要在思想上对其进行教育,培养良好的世界观和人生观,给他们一个良好的家庭和社会环境,才能使他们在人生的道路上的更远,更好。