论文部分内容阅读
互联网给人们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行智能分析。本文在对当前网页过滤技术进行综述的基础上,提出了一种对基于人工神经网络的智能分析网页内容和高效过滤网页的防火墙,并用软件实现了对非法网页的过滤的关键技术部分。
本文阐述了信息过滤的基本方法并利用网页的结构化特点,通过文档对象模型这个针对HTML和XML文档进行灵活操作的编程接口,来对网页内容结构进行具体分析。通过对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。
在实现该设计的具体技术中,自动分词技术是中文文档向量化的关键,本文阐述了当前的中文分词技术、中文分词中的难题以及当前的中文分词所取得的成果,根据非法网页的特点建立了专用词典,与引入的分词模块相结合,大大提高了中文分词的准确率。
本文还比较了文本分类的常用方法,将文本分类的方法应用到网页过滤中。在该设计中希望通过人工神经网络的分布并行原理使得该防火墙能用一般速度的处理单元完成极高速的运算,并利用其自主学习能力完成过去传统方法无法完成的若干任务。希望通过大量网页内容的训练,使得该系统具备有自行学习和分类的能力,利用神经网络的优势完成根据网页中文内容的自动过滤。
最后,作者对所设计的基于内容的网络防火墙的整体结构予以阐述和说明,并对该设计所涉及的关键技术--——中文网页分词技术的予以实现,为后继工作打下良好的基础。通过实验证明,该网页获取、分词模块具备有分词准确、分词速度快,效率高的特点。