利用网页特征识别不良图像网页

来源 :兰州大学 | 被引量 : 0次 | 上传用户:sj1020300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现在社会中,无论在国际上还是在国内人们都普遍认为色情网页会毒害青少年,危害他们的身心健康,阻碍他们的健康发展,有的甚至会因此而走上犯罪的道路。因此有必要针对色情网页中的各种信息特点来区分正常信息和不良信息。结合本文作者研究方向,本文选择了结合互联网中的色情图像网页的特征来识别不良图像网页。针对网页中内容的特点和网站的规模,监管力度,本文将含有不良图像的网站分为三类:较大较热的论坛,blog,他们监管较为严格;规模较小,或者监管较松的论坛,blog;以及含有大量色情图像的色情网站。本文选择了几个规模较大社区,例如国内著名的猫扑和天涯社区,监管较为松散的微软中文Live社区,以及数十个色情网站作为研究对象。本文首先选取不同的网站URL作为爬虫爬行的种子,然后选取不同的爬行策略,抓取不同深度的网页。提取网页中的图像数据,其他网页数据,作为进一步研究的资料。在上面数据的基础上,本文研究了内容包括色情图像的内容特征。研究从色情图像裸露出大量的皮肤区域这一特征出发,涉及的内容有:肤色面积与图像面积比,肤色所在矩形面积与,肤色连通区域的个数,最大连通区域与图像面积的比,肤色平均方差,肤色平均概率值等等,同时也研究了色情图像与周围多媒体网页内容之间的关系,比如整个网站中色情图像占图像内容的比重,色情文字网页的特征。但是有时候在正常网站或者色情网站的主角脸部特写时,也会被误判为色情图像。所以本文进一步研究了能够区分出的正常人脸比例特征。虽然在正常的网站中也有可能存在大量的不良图像,可是由于利用肤色特征判断图片是否为不良图片存在误判的情况,使得对正常网站的图像检测时,出现误判的数量和机会大大增加。但是正常网站的不良图像大部分都是常见频率较高的图像。可以对这些图像进行特征分析,判断,从而得到很好的结果。在这里使用了经过聚类的128维的SIFT特征对正常网站的图片来进行判断,使得在正常网站中的误判情况大大减小。最后本文给出了实验的环境,完整步骤,利用实验数据说明了实验理论的正确性。本文对实验结果进行了分析和说明,指出了各个方法的优点和不足之处。并给出了本文方法在不同场合下的使用建议。对于青少年而言,本文不仅要屏蔽不良信息,更要在思想上对其进行教育,培养良好的世界观和人生观,给他们一个良好的家庭和社会环境,才能使他们在人生的道路上的更远,更好。
其他文献
如何提高现有无线网络资源的利用率,优化无线网络性能,具有重要意义。多播技术能有效地解决单点发送多点接收问题,实现网络中点到多点的高效数据传送,大量节约网络带宽并降低
针对实习医生基本技能训练时难以真实地融入到手术环境中的问题,通过研究虚拟环境下缝合线的建模方法,实现了连续控制点的缝合线3D模型的建立及其位置变换过程,提出了一种基
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,人们越来越容易获得来自各个方面的大量信息。与此同时却也面对着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可
时空数据库技术是计算机科学的新兴领域,用来存储和管理空间位置或空间范围随着时间变化的时空对象。随着移动通信、无线定位等技术的迅速发展,移动信息服务受到越来越多地关
脑-机接口(Brain-Computer Interface, BCI)作为一门交叉性学科,涵盖了生物医学、神经科学以及计算机科学等,已成为脑科学研究热点。在BCI研究中,脑电信号(Electroencephalog
RNA是生物遗传信息的中间载体,参与蛋白质合成,在细胞分化凋亡、生物发育、疾病发生等方面起着重要作用。RNA二级结构是由碱基配对与核苷酸链折叠而成的茎环空间结构,其茎环
学位
在现代信息社会里,电子文档已经成为最常用的信息保存和使用形式。无论是政府部门的政府公文、会议记录、涉密文档,还是企事业单位的发展规划、设计图纸、产品配方、软件源代
随着利用计算机犯罪的事件越来越多,计算机取证技术(Computer Forensics)逐渐成为人们研究与关注的焦点。作为计算机领域和法学领域的一门交叉科学,计算机取证常被用来解决大
随着科技的不断进步,信息产业快速增长,应用范围逐步增加,带来的网络攻击和破坏也越来越多,信息安全技术愈发受到重视.可是无论信息安全技术在这数十年如何发展,网络安全技术
随着互联网的快速发展,搜索已成为当前最重要的网络基础应用之一。但是,目前的搜索结果并不能让人足够满意。对搜索引擎来说,如何通过用户提交的查询关键字,返回满足用户需求