基于内容挖掘的Web网页过滤方法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:titaige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的蓬勃发展及其开放性使得不良信息的传播有了可乘之机,给社会带来了诸多不利的影响。目前,网页内容过滤的方法有很多,一般通过关键词或者URL进行过滤,技术简单且误过滤率高,不能满足应用需要。伴随着数据挖掘技术在Web领域的广泛应用,基于内容挖掘技术的Web文本内容过滤技术已经成为当前研究的热点之一。  结合Web内容挖掘的文本分类技术、特征提取技术、特征选择技术,以及模式提取技术,构造基于内容挖掘的Web网页过滤系统模型。模型主要包括网页预处理、文本模式提取、特征选择、训练和过滤等模块,主要通过模式提取技术提取网页文本特征,通过对网页间特征的相似度分析来分类和过滤网页。模式提取算法Teiresias最初用于DNA序列分析,将其改进后用于提取中文网页文本的模式特征以得到需过滤网页类文本的模式库,后将其模式特征向量化后分析其与待过滤文本的相似度,当两者之间的相似度达到一定的阈值即认为此网页将被过滤。为减少网页误判率,在研究特征选择方法的基础上,采用绝对互信息的方法对模式库进行缩减,选取最能代表类别特性的模式作为特征来进行下一阶段的过滤工作,实验表明对网页的误过滤问题有一定的改善作用。通过对系统进行了整体测试与分析,试验结果表明基于内容挖掘的网页过滤模型是实现网页过滤的有效方法之一。
其他文献
随着多媒体技术以及互联网应用的迅速发展,多媒体数据量特别是视频数据量呈现爆炸式地增长,找到一种行之有效的视频检索方法越来越成为一种必须。高效的视频检索技术能够极大
网上阅卷是一种为提高阅卷自动化、智能化和共享化而兴起的应用,它通过互联网将阅卷客户端和服务器端连接在一起,数据的传输在互联网上进行。因此,研究和开发一种能够保护网
组播通信与单播通信类似,也面临着互联网上潜在的安全问题。有关研究结果给出,结合单播系统中新一代安全标准IPSec,提出了组播安全的相应解决方法,并讨论了安全组播和IPSec的
随着网络上电子文档呈指数级增长,人们迫切需要能利用计算机自动地处理这些文档,主要包括文档的自动分类、聚类和摘要。本文的侧重点是文档聚类。文档聚类的一般过程包括文本
随着计算机技术的高速发展,在日常的生活和工作中,越来越多的人采用图片的方式来记录生活和工作中的点点滴滴,因此保证其安全性已经显得越来越重要。由于图像具有信息量大、
随着用户和应用需求的不断增长,存储系统在规模、体系结构等方面都出现了新的变化,系统正朝着大规模、复杂化的方向飞速发展,随之而来的是为了满足各种存储需求而引起的管理
随着人们对视频和音频信息的需求愈来愈强烈,追求远距离视音频同步交互成为新的时尚。近些年来,依托计算机技术、通信技术和网络技术的发展,集音频、视频、图像、文字、数据为一
近年来云计算吸引了学术界和工业界的广泛关注,随着云计算的迅速发展,世界各地建立起了许多包含成千上万个计算节点的大规模数据中心。云数据中心的运行需要大量的能源消耗,
Web服务是一种优秀的分布式的组件技术,以 XML( eXtensible Markup Language)/SOAP(Simple Object Access Protocol)/WSDL(Web Services Description Language)/UDDI(Univers
随着计算机技术的发展,世界信息化已成为发展的大潮,中华文化的数字化、信息化,必须以中华语言文字的信息化为前提。汉字字库是中文信息处理的重要基础,因此字库技术成为这一领域