基于HTTP协议面向中文文本的过滤技术研究

来源 :四川师范大学 | 被引量 : 11次 | 上传用户:cart008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是网络时代,人们的工作、学习和生活都与网络息息相关。但网络在给世人提供方便快捷的服务同时,也埋下了很多社会道德、法制、政治隐患,究其来源,就是网络中不良信息的泛滥。本文研究的主要内容就是如何在网络信息与用户之间建立起一个信息的过滤屏障,将网络中的不良信息拦截在用户的可视范围之外。网络信息中一个重要的信息载体是网页,本文选用HTTP协议作为研究对象,提出了一种面向中文文本的信息过滤模型。本文的研究重点是HTTP协议数据报的拦截分析和中文字符串的匹配,针对当前的研究现状和存在的问题做了如下工作:1、关于网络数据的拦截可以在核心态和用户态两个层面上进行。核心态网络数据的拦截功能强大,但需要对数据包进行重组和还原,技术实现复杂,而用户态下网络数据的拦截实现简单,更重要的一点是截获到的数据报完整,易于分析,所以本文采用了用户态下的SPI(Service Provider Interface)网络数据报拦截技术获取网络数据。2、文本过滤中经常会受到一些伪装词汇的干扰,本文提出了一种利用字符编码的规律,通过一次扫描预处理,剔除敏感信息分割伪装的方法,有效提高了过滤的准确率。3、关键字的匹配速度是文本过滤的速度瓶颈,笔者研究了几种常见的关键字匹配算法,发现这些算法都是面向小字符集文本,对于中文这样的大字符集而言效果不够理想。因此,本文通过改进WM算法,提出了一种面向中文文本的快速字符串匹配算法(CM算法)。4、对于含不良信息的数据报处理,本文采用的是先计算拦截数据的信息敏感度,然后根据决策树给出的策略做出相应处理,在一定程度上降低了误拦率。
其他文献
由知识库及推理机组成的专家系统(Expert System)是人工智能应用研究最活跃和最广泛的课题之一。知识库又是组成知识性专家系统的核心部分之一,建造知识完备、逻辑清晰和独立
视觉是人类获取外部信息的重要途径,视频信息具有直观性、确定性、高效性和广泛性等特点,但由于视频本身的数据量非常大,给存储和传输带来了很多不便,为了对视频信息进行有效
互联网的快速发展为公众舆情的表达和传播提供了新的途径,越来越多的人通过网络来表达自己对社会问题的意见和看法。其中,网络论坛(BBS)是公众在互联网上表达舆情的最主要途
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。文本自
近年来,随着互联网技术的不断进步,人们参与社会网络的活动也逐渐增多,产生了大量社会网络数据,而大部分的社会网络数据都会包含隐私信息。由于科学研究等需求,社会网络数据
随着企业规模的扩大和数字化技术的不断提高,文档管理的任务越来越重要。但目前许多企业的文档管理工作缺乏科学性,文档的安全性差,检索困难,难以实现对文档的共享访问控制,降低了
模式识别又常称作模式分类,是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释,也是信息科学和
科学基金制在国际上已被广泛用作国家科技资源分配和管理的主要手段。相较于美国等发达国家,我国的基金数据管理信息化建设比较晚。随着科学基金数据的不断增多,信息化管理要
遗传算法(Genetic Algorithm,简称GA)由John Holland于1975年提出,对于传统方法难于求解的组合优化、模式识别、图像处理等复杂问题,使用该算法求解能得到令人较为满意的解。
人脸识别技术是一种依据人的面部特征来自动进行身份鉴别的生物特征识别技术。由于人脸识别技术在生物特征识别技术中具有众多的优势(特别是直观、非侵犯),决定了其广泛的应