一个WEB文本过滤系统设计与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lz274458795
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究取得了很大的进展,Web文本信息过滤技术已成为一个研究热点。本文在前期课题IPCG控制网关的研究基础上,为了提高该计费网关对公共信息网络服务的综合监管能力,通过研究Linux下实时内容过滤和文本过滤等相关技术,设计并实现了一个基于IPCG控制网关的Web文本信息过滤系统。本文首先给出了系统总体框架以及设计目标,并提出了一种分布式过滤系统的实现方式。系统由中央预警模块统一管理、在线过滤和离线过滤相结合。分布式数据库的同步借鉴OSPF路由协议中数据库同步算法,实现全网过滤信息的通用性。实时在线过滤模块,包括了数据包预处理和基于IP地址及关键词过滤两个子过程。数据包预处理过程主要针对Web页面进行数据分析和结构分析,解析出正确的页面数据信息;基于IP和基于关键词的过滤过程,采用了哈希树结构来组织IP黑名单列表和缓存拼接策略存储过滤内容,关键词过滤结合统计信息综合判定。离线过滤模块对正例类和不确定类做进一步的离线分析,更新实时在线过滤模块的IP黑名单列表和过滤关键字列表。离线过滤采用改进的特征词提取算法和改进的过滤策略。改进的特征词提取算法,综合考虑了特征词长、网页结构特征和词汇的感情色彩等;改进的过滤策略过滤初期采用SVM算法,中后期采用改进的自适应模板过滤法。模板的更新采用改进的模板系数调整策略,并引入特征衰减因子来提高过滤的准确率。实验表明,本文提出的方法既能保证内容过滤分析和数据报流通相互独立,又能提高在线过滤的速度和过滤的正确率。
其他文献
支持向量机结构简洁、泛化性能优越而广泛应用于模式识别、信号处理、图像处理等智能化信息处理领域。该算法等价于求解二次规划,所以在不均衡样本集、大样本集上存在着泛化
近年来,随着Web2.0的发展,社会网络越来越受到更多学者们的关注和研究。在社会网络的众多性质中,社团结构是其最重要同时也是最具有研究意义的性质之一。通过社团的划分,我们
面向服务架构SOA(Service-Oriented Architecture),与面向过程、面向对象、面向组件一样,是一种软件组建及开发的方式。SOA可以理解为“抽象、松散耦合和粗粒度”的软件架构
电机作为一种重要的机电产品,广泛的应用于从工农业生产到人们日常生活的各个领域。为了保证电机的质量,以及对电机的性能进行研究分析,电机测试是必不可少的一个环节。近年来,计
网格资源管理系统是网格的核心组成部分。由于网格是一个开放、动态的互联网并行环境,用户可以从网格的任何地方向网格平台提交应用,而且网格所固有的动态性特征,使得网格资
受众,是对于大众传播中接收者的统称,一般是指通过大众传播媒介接受信息的人,包括报刊读者、广播听众、电视观众以及互联网的网民。由于受众是传播活动的目的地,人们不断地改
适于仿真需要的CT图像中牙列轮廓的快速提取,是基于CT图像的成像特点,对于成像后相邻组织间丢失的轮廓,采用相对自动的办法将其生成。本文采用Amira医学图像三维建模软件,综
TTCN-3语言编译器实现的复杂性,使手工构造的测试用例集无法对编译器质量加以有力保证。引入测试用例自动生成,成了一种必然选择。通过总结手工测试经验,结合编译器构造、程
近年来,伴随着社会经济的发展,道路交通也迅速发展,从而造成交通环境相对复杂。为解决道路交通迅速发展所带来的各种问题,智能交通系统的研究被提到了重要位置,利用计算机视
伴随着云计算的迅速发展,云存储服务也应运而生。云存储大大提升了存储资源的利用率,降低存储成本。无论传统的单机存储还是当前的云存储,只要有数据的地方就有数据安全问题。“