利用网页特征识别不良图像网页

来源 :兰州大学 | 被引量 : 0次 | 上传用户：sj1020300

【摘要】

：

在现在社会中,无论在国际上还是在国内人们都普遍认为色情网页会毒害青少年,危害他们的身心健康,阻碍他们的健康发展,有的甚至会因此而走上犯罪的道路。因此有必要针对色情网

【作者】

：

郑瑞东

【机构】

：

兰州大学

【出处】

：

兰州大学

【发表日期】

：

2010年期

【关键词】

：

不良图像爬虫图像检索肤色检测人脸检测肤色提取肤色连通区域 SIFT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在现在社会中,无论在国际上还是在国内人们都普遍认为色情网页会毒害青少年,危害他们的身心健康,阻碍他们的健康发展,有的甚至会因此而走上犯罪的道路。因此有必要针对色情网页中的各种信息特点来区分正常信息和不良信息。结合本文作者研究方向,本文选择了结合互联网中的色情图像网页的特征来识别不良图像网页。针对网页中内容的特点和网站的规模,监管力度,本文将含有不良图像的网站分为三类：较大较热的论坛,blog,他们监管较为严格；规模较小,或者监管较松的论坛,blog；以及含有大量色情图像的色情网站。本文选择了几个规模较大社区,例如国内著名的猫扑和天涯社区,监管较为松散的微软中文Live社区,以及数十个色情网站作为研究对象。本文首先选取不同的网站URL作为爬虫爬行的种子,然后选取不同的爬行策略,抓取不同深度的网页。提取网页中的图像数据,其他网页数据,作为进一步研究的资料。在上面数据的基础上,本文研究了内容包括色情图像的内容特征。研究从色情图像裸露出大量的皮肤区域这一特征出发,涉及的内容有：肤色面积与图像面积比,肤色所在矩形面积与,肤色连通区域的个数,最大连通区域与图像面积的比,肤色平均方差,肤色平均概率值等等,同时也研究了色情图像与周围多媒体网页内容之间的关系,比如整个网站中色情图像占图像内容的比重,色情文字网页的特征。但是有时候在正常网站或者色情网站的主角脸部特写时,也会被误判为色情图像。所以本文进一步研究了能够区分出的正常人脸比例特征。虽然在正常的网站中也有可能存在大量的不良图像,可是由于利用肤色特征判断图片是否为不良图片存在误判的情况,使得对正常网站的图像检测时,出现误判的数量和机会大大增加。但是正常网站的不良图像大部分都是常见频率较高的图像。可以对这些图像进行特征分析,判断,从而得到很好的结果。在这里使用了经过聚类的128维的SIFT特征对正常网站的图片来进行判断,使得在正常网站中的误判情况大大减小。最后本文给出了实验的环境,完整步骤,利用实验数据说明了实验理论的正确性。本文对实验结果进行了分析和说明,指出了各个方法的优点和不足之处。并给出了本文方法在不同场合下的使用建议。对于青少年而言,本文不仅要屏蔽不良信息,更要在思想上对其进行教育,培养良好的世界观和人生观,给他们一个良好的家庭和社会环境,才能使他们在人生的道路上的更远,更好。

其他文献

网络编码在多播无线通信中的应用及其性能分析

如何提高现有无线网络资源的利用率,优化无线网络性能,具有重要意义。多播技术能有效地解决单点发送多点接收问题,实现网络中点到多点的高效数据传送,大量节约网络带宽并降低

学位

网络编码吞吐量资源消耗负载均衡时延

虚拟手术中打结过程的研究与实现

针对实习医生基本技能训练时难以真实地融入到手术环境中的问题,通过研究虚拟环境下缝合线的建模方法,实现了连续控制点的缝合线3D模型的建立及其位置变换过程,提出了一种基

学位

虚拟手术虚拟现实质子弹簧模型交叉建模球形包围盒碰撞半径

特征选择与贝叶斯文本分类方法的研究

随着网络应用的飞速发展和大规模数据仓库技术的广泛应用，人们越来越容易获得来自各个方面的大量信息。与此同时却也面对着“数据丰富，但信息贫乏”的挑战。因此人们迫切需要可

学位

计算机网络数据挖掘文本分类程序语言

基于时空数据库的移动对象索引技术研究与实现

时空数据库技术是计算机科学的新兴领域,用来存储和管理空间位置或空间范围随着时间变化的时空对象。随着移动通信、无线定位等技术的迅速发展,移动信息服务受到越来越多地关

学位

时空数据库移动对象索引空间轨迹连续动态更新

基于运动想象的脑电信号特征提取与分类方法研究

脑-机接口(Brain-Computer Interface, BCI)作为一门交叉性学科,涵盖了生物医学、神经科学以及计算机科学等,已成为脑科学研究热点。在BCI研究中,脑电信号(Electroencephalog

学位

脑-机接口特征提取局部均值分解运动想象

基于混沌模拟退火的RNA二级结构预测的研究

RNA是生物遗传信息的中间载体,参与蛋白质合成,在细胞分化凋亡、生物发育、疾病发生等方面起着重要作用。RNA二级结构是由碱基配对与核苷酸链折叠而成的茎环空间结构,其茎环

学位

基于RBAC的电子文档保护系统的研究与实现

在现代信息社会里,电子文档已经成为最常用的信息保存和使用形式。无论是政府部门的政府公文、会议记录、涉密文档,还是企事业单位的发展规划、设计图纸、产品配方、软件源代

学位

电子文档访问控制身份鉴定用户权限

计算机信息获取系统的研究与实现

随着利用计算机犯罪的事件越来越多,计算机取证技术(Computer Forensics)逐渐成为人们研究与关注的焦点。作为计算机领域和法学领域的一门交叉科学,计算机取证常被用来解决大

学位

计算机取证移动存储技术数据鉴定消息认证

基于GT-KM算法的入侵检测研究

随着科技的不断进步,信息产业快速增长,应用范围逐步增加,带来的网络攻击和破坏也越来越多,信息安全技术愈发受到重视.可是无论信息安全技术在这数十年如何发展,网络安全技术

学位

入侵检测系统K-means算法生长树算法GT-KM算法

上下文相关的查询推荐算法研究

随着互联网的快速发展,搜索已成为当前最重要的网络基础应用之一。但是,目前的搜索结果并不能让人足够满意。对搜索引擎来说,如何通过用户提交的查询关键字,返回满足用户需求

学位

查询推荐搜索目的上下文序列搜索日志

利用网页特征识别不良图像网页

其他学术论文