基于互联网的不良信息过滤技术的设计与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xjwyx770729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为信息时代的重要标志之一,Internet上的万千信息,给人们的工作、学习、生活带来了极大便利。但在信息的海洋中,还夹杂着一些不良内容的浮渣,它们给社会带来相当大的“不良信息冲击”。基于互联网的不良信息过滤技术就是在这种情况下诞生的。互联网信息过滤(Information Filtering)是指从海量的WEB文本中识别出含有不良信息的非法文本,以将其屏蔽。目前它已成为信息过滤的一个新的研究领域。 信息过滤使用的技术主要有基于关键字的过滤、基于过滤法则的过滤和一些基于内容分析的过滤技术。本文首先介绍了课题的研究背景及国内外研究现状,系统地探讨了信息过滤所涉及的各个方面的理论和技术,包括信息过滤系统的分类、主要数学模型及文本分类算法等。 本文在对国内外各种用于信息过滤方法进行分析研究及初步评估的基础上,为提高系统过滤不良信息的整体性能和运行速度,提出二级过滤的策略,即第一级基于关键字和基于禁用IP地址的过滤及第二级基于文本内容的过滤。 本文系统地分析了非法文本的特点,总结了非法文本内容和用词的特征,并详细论述了系统所采用的关键技术,即分词技术及特征提取技术。将最大正向匹配的分词方法、开方拟合检验(CHI)的特征提取方法及基于内容分析的KNN文本分类算法这些技术应用到非法网页过滤中,并基于Windows系统进行了实施。 最后,采用国际上通用的相关评估方法,对本方案的实施进行了测定和评估。评估结果显示,本方案取得了较好的过滤效果。
其他文献
随着 Internet 的迅猛发展和网络社会化的到来,互联网已经面向商业用户和普通公众开放,网络通信和业务量以滚雪球式增长,网络安全的地位日益突出。网络安全防护形式已经从传统单
语义Web作为目前Web的一个延伸,其目标是使Web上的数据具有机器可识别的语义,论文作者基于课题组研究开发的语义原生XML数据库系统(简称SNAX系统),对其中的数据存储方法和相关技
随着射频识别技术的发展,射频智能卡已经广泛应用于汽车防盗、门禁控制、港口通关、不停车收费等领域。目前射频智能卡大多只能支持单个应用,应用的深入普及增大了卡管理的复
人脸识别技术一直是具有重要意义和实际价值的研究课题,它在监控系统、军事人脸跟踪等领域得到了非常广泛的应用。但是由于人脸本身的多样性和复杂性,以及实时成像环境的因素(
当前,Web 已成为人们获取知识和信息的一个不可或缺的重要途径。然而,随着 Web 信息的日益增加,人们不得不花费更多的时间来搜索、浏览自己所需的信息。“信息过量”和“信息饥
为了持续地获得理想的软件质量,提高软件开发效率,降低开发成本,现代许多企业纷纷引进了软件过程模型CMMI(Capability Maturity Model Integration)。CMMI为我们提供了经过充
当今世界,随着互联网和信息技术的高速发展,网络带宽容量和计算机性能的大幅度提高,网络技术在现代社会的应用越来越广泛,越来越深入人们生活的各个方面。P2P网络技术(也称对
随着计算机技术和网络技术的发展,以视频会议、计算机协同计算以及大规模分布交互仿真等为代表的组通信应用不断涌现,这些组通信应用迫切需要 Internet提供更好的服务。为了适
三维图形技术是虚拟现实、实时仿真以及交互三维设计等许多重要应用的关键技术。由于三维图形技术涉及到许多算法和专业知识,要快速的开发三维应用程序是有一定困难的,因此三维
随着计算机技术与图形学的迅速发展,作为两者结合产物的计算机动画也随之发展并渗透到人们生活的各个领域:游戏、广告、医学、教育及军事,成为一个具有数百亿美元年产值的行