论文部分内容阅读
随着互联网的不断发展和普及,人们可以很方便的通过网络来获取信息和资源。同时网络中充斥的各种不良信息和“垃圾”信息,给人们的生活和工作带来了很大的负面影响,如何过滤这些不良信息和“垃圾”信息成为一个亟待解决的问题。为此本文对网页过滤课题进行研究,并设计了一个基于网络设备的网页过滤系统。本文首先对当前网页过滤的常用技术进行了研究,了解这些技术的优缺点;其次研究了几种快速的串匹配算法和几种常见的文本表示方法;同时还对HTTP协议进行了深入的研究,了解HTTP报文的传输机制,并学习Vxworks网络协议栈的数据处理机制,了解Vxworks网络协议栈的数据处理流程;最后结合实际网络环境,设计了一个基于网络设备的网页过滤系统。过滤系统主要分为两个层面,一个是数据获取层面,一个是过滤层面。在数据获取层面,为了提高过滤速率,并且兼容底层系统,构建了一个基础框架,主要负责对数据流的接收、分析、上送,并对链接进行维护和控制。过滤层面采用URL过滤和内容过滤相结合的方式,形成以数据库过滤(IP库、URL库)为主的初级过滤、以内容过滤为主的二级过滤的多级过滤体系;并且针对课题的特殊性,采用了“第一次放过”的策略。试验表明,该系统能够很好的满足实时性和准确性要求,具有很好的通用性和可扩展性。本过滤系统基于网络设备,便于统一管理;且在网络层进行网页过滤,克服了应用层过滤适应性和安全性较差的缺点。因此本系统可作为中间服务器过滤系统架设在网络设备上,保护内部用户的网络环境。