论文部分内容阅读
网络不良信息小到影响到个人的工作、学习与生活,大到危害到国家信息安全甚至主权安全。针对危害到政治、经济、军事、文化等领域的不良信息、敏感信息,本文通过融合先进计算机技术的智能化网络信息筛选系统的研究,在技术上为信息安全的保证提供一些思路、建议[0]。系统主要针对www协议进行研究。系统在整体架构上,实现了针对网络不良信息的智能化网络信息筛选系统原型,研究了系统构成所需要的各种技术:本文首先定义待筛选主机为筛选客户端,筛选代理运行在筛选客户端上。根据从服务器端接受的不断更新的关键字列表,收集、分析筛选客户端上的信息。将符合关键字信息的网址、ip地址、生成时间等加密后提交到筛选服务器端。服务器端存储上述提交,按需发出报警。筛选代理借鉴智能代理理论,由spider、信息存储、预处理器、词法分析器、客户端代理更新程序组成;筛选代理通过合法手段强制安装、运行在筛选客户端上。筛选服务器由关键字服务器、筛选结果接收器、存储、报警器和更新中心组成。筛选代理运用经改进的Spider技术收集筛选客户端上的信息。根据筛选关键字,基于语义单元表示树剪枝的词法分析原理,关键字Si=Wi,1 Wi,2…Wi,n(其中n为关键字Si的长度)变换为扩展形式S*i=W*i,1V1W*i,2V2…W*i,n-1Vn-1 W*i,n(其中W*i,k∈U(Wi,k)变换集,k=1,…,n;Vj∈V变换集的闭包,j=1,2,…,n-1)之后,以往从文本中简单屏蔽关键字Si的操作就被扩展到屏蔽符合S*i这一模式的任何字符串。依照将语义单元表示库转换为语义单元表示树的方法,同样可以将S*i= W*i,1V1W*i,2V2…W*i,n-1Vn-1W*i,n转换为树形表示。以句子为单位,依次取出待过滤的文本信息;对每一句,依次取出其中每一个字符;对每一个字符,比对其是否存在于U变换库中,若存在,可以得到对应的关键字符Wi,j;取以Wi,j为实量开始的关键字表示树,使用快速剪枝算法,根据Wi,j对已经取出的所有关键字表示树进行剪枝。如果最终存在没有被剪掉的关键字表示树,说明该句中含有需要过滤的关键字。对于筛选结果的存储,系统采用LVS集群技术。这是因为:LVS整个系统很容易被扩展,无需重新设置整个系统,无需中断服务,扩展系统的操作对最终用户是透明的;满足智能化网络信息筛选系统服务器端的储存要求。LVS有三种类型:VS/NAT,VS/TUN和VS/DR。在100M、正常网络服务环境下,假设每个连接的平均数据量为10Kbytes,测得VS/NAT每秒处理的连接数为1139.2Connections/Second,VS/DR或VS/TUN调度器的最大吞吐率为25,000Connections/Second。本文解决了信息收集、词法分析、结果存储这三个关键的技术问题,实现了系统的原形,经过测试智能化网络信息筛选系统能够达到减少人工劳动量、提高筛选准确率和效率的目的。