基于内容过滤的网络防火墙的设计与实现

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:auroragame_luoxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网给人们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行智能分析。本文在对当前网页过滤技术进行综述的基础上,提出了一种对基于人工神经网络的智能分析网页内容和高效过滤网页的防火墙,并用软件实现了对非法网页的过滤的关键技术部分。 本文阐述了信息过滤的基本方法并利用网页的结构化特点,通过文档对象模型这个针对HTML和XML文档进行灵活操作的编程接口,来对网页内容结构进行具体分析。通过对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。 在实现该设计的具体技术中,自动分词技术是中文文档向量化的关键,本文阐述了当前的中文分词技术、中文分词中的难题以及当前的中文分词所取得的成果,根据非法网页的特点建立了专用词典,与引入的分词模块相结合,大大提高了中文分词的准确率。 本文还比较了文本分类的常用方法,将文本分类的方法应用到网页过滤中。在该设计中希望通过人工神经网络的分布并行原理使得该防火墙能用一般速度的处理单元完成极高速的运算,并利用其自主学习能力完成过去传统方法无法完成的若干任务。希望通过大量网页内容的训练,使得该系统具备有自行学习和分类的能力,利用神经网络的优势完成根据网页中文内容的自动过滤。 最后,作者对所设计的基于内容的网络防火墙的整体结构予以阐述和说明,并对该设计所涉及的关键技术--——中文网页分词技术的予以实现,为后继工作打下良好的基础。通过实验证明,该网页获取、分词模块具备有分词准确、分词速度快,效率高的特点。
其他文献
移动数据库系统本质上是移动的、异构的、多数据库系统。移动计算环境具有一些新的特性:移动性、网络断接的频繁性、网络条件多样性、网络通信带宽和费用的非对称性:此外移动计
Ontology(本体)作为一种表达领域知识的手段,正在计算机科学的各个研究领域中受到越来越多的重视,并在许多领域得到广泛的应用。从自然语言处理的角度来看,构造领域Ontology的关
随着计算机的普及以及信息化办公的需要,将传统纸质媒介保存的图纸内容用计算机进行存储,已经是必不可少的操作。图纸扫描生成的计算机图像都是位图格式的,但是对于诸如地质
随着VoIP的普及,对VoIP监测的需求愈加迫切,目前一般的网络测量工具不能满足VoIP监测的需要。同时主动式测量的局限性也越来越明显,对于运营商和大中型企业来说,更需要一种被动式
音频作为多媒体信息的一个重要组成部分,承载着很多资讯。随着多媒体技术的发展,音频资料的数据量不断膨胀。为了有效地利用这些信息,不仅需要合理的数据库系统来组织如此庞大的
随着计算机技术的迅速发展和硬件水平的快速提升,尤其是近年来高性能计算机和并行技术的发展,可视化技术作为科学研究和工程技术应用的一个手段变得日益重要。“高性能计算机及
近年来,高速铁路在我国发展迅猛,高速铁路运营里程和投用高速列车规模均跃居世界首位。与传统的机辆式普速列车相比,高速列车运用具有运行速度高、运行距离长、运营规模大的特点
三维重建是计算机视觉和计算机图形学的基本问题,在许多领域有广泛的应用。基于图像的三维重建技术恢复的三维信息精度低,而高分辨率的激光或结构光扫描技术设备昂贵且操作复杂
本文研究了WMN网络中的节点定位技术,研究目标为设计低误差、高可用性的定位解决方案,同时为WMN网络中的路由节点(MeshRouter)和客户机节点(MeshClient)提供准确的定位服务。主
随着计算机能力的提高,越来越多的文字信息需要通过计算机来处理,这迫切地需要软件全球化的支持。软件系统的国际化水平影响着其全球化能力。软件国际化就是指让软件的实现独立