增强型网页过滤系统研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:fenghuirong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,人们获得信息的途径更加便捷。但是,互联网上充斥着大量不良信息,为了给用户提供一个健康、安全的信息获取环境,有必要对非法网页进行过滤处理。传统网页过滤技术可以分为URL过滤和内容过滤两种,URL过滤处理效率较高,但是随着网络信息资源的快速增加,它需要不断地以人工的方式增加URL数据库中的记录;内容过滤具有即时内容分析的能力,可以节省维护URL数据库的成本,但效率问题使得它的应用受到限制。本文提出一个结合这两种过滤方式的过滤方法,并且实现了一个增强型的网页过滤器,该过滤器利用网页超本文的特征,设计实现了二阶段网页分析过滤法,这种过滤方法具有URL过滤的效率,也能过滤未知网页资源。对于那些URL过滤器无法处理的网页资源,本文采用改进的贝叶斯分类器对该网页进行分类处理。经过实验证明该过滤器比单纯利用分类器的过滤方式具有更好的效果。本文首先介绍信息过滤的原理和分类以及通用信息过滤需要的数学模型,然后介绍系统实现所涉及的相关技术:HTTP协议、常见的Web过滤技术、网页自动分类技术。接着提出一个增强型网页过滤器的模型,并且根据这个模型设计和开发了一个网页过滤器。并通过实验结果来评估该增强型网页过滤器的效率和过滤效果。最后给出本文的总结和展望。
其他文献
在互联网飞速发展的今天,越来越多的行业发展和应用都依赖互联网,而基于点对点(即P2P)原理的下载应用,如BT、电驴等,对网络带宽的消耗极大,这些P2P软件的滥用非常消耗组织有限的带
随着信息技术特别是网络技术的高速发展,数据库技术已渗透到了各行各业,数据存储量大幅度增加,面临这些枯燥无味的海量数据,人工的对之进行分析或理解变得不太现实,因此人们
随着Web服务的兴起而提出的面向服务的体系架构SOA为Internet上的分布式计算提供了支持异构平台和多种语言的构件式程序架构。SOA强调的是Web服务之间的互操作,而Web服务互操
虚拟现实(VirtualReality)是指利用三维图形生成技术、多传感交互技术及高分辨显示技术,生成视、听、触觉一体化的、逼真的三维虚拟环境,用户通过视觉头盔、数据手套等力反馈传
随着嵌入式系统的广泛应用,用户对嵌入式产品提出了越来越高的要求,嵌入式开发领域也因此面临着越来越复杂的应用,C语言已经开始不堪重负,而C++作为一种优秀的支持多种编程范型的
软件测试在软件开发和维护的各个阶段至关重要。它贯彻于软件定义和开发的整个阶段即整个软件开发的过程。而软件测试中的难点和重点是测试用例的生成设计,其设计的依据主要
时间表问题是一类特殊的资源调度问题,广泛应用于学校课程安排、会议日程安排、体育比赛和航班时刻表的制定等。所以如何求解时间表问题成为一个关键的问题。本文以大学课程安
P2P网络已经在Internet中占有一席之地,P2P网络“去中心化”的特点使其被越来越多的人所关注。但P2P网络自身与之具有的高动态性、分散性、自治性、自组织以及匿名性等特点,
随着信息技术的高速发展,信息技术在社会各方面取得广泛的应用。同时在教育领域,利用信息技术实现基于人机交互的学习,对传统教学方法和模式产生深远的影响。基于人机交互的
作为一种全新的娱乐方式-交互式娱乐方式的代表电脑游戏产业在中国已进入快速发展的时期,但是由于缺乏正规的游戏教育,研发投入少等原因中国游戏产业的命脉被握在国外厂商的手