基于内容挖掘的Web网页过滤方法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：titaige

【摘要】

：

Internet的蓬勃发展及其开放性使得不良信息的传播有了可乘之机,给社会带来了诸多不利的影响。目前,网页内容过滤的方法有很多,一般通过关键词或者URL进行过滤,技术简单且误

【作者】

：

邹伟

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2008年期

【关键词】

：

计算机网页过滤系统内容挖掘特征选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet的蓬勃发展及其开放性使得不良信息的传播有了可乘之机,给社会带来了诸多不利的影响。目前,网页内容过滤的方法有很多,一般通过关键词或者URL进行过滤,技术简单且误过滤率高,不能满足应用需要。伴随着数据挖掘技术在Web领域的广泛应用,基于内容挖掘技术的Web文本内容过滤技术已经成为当前研究的热点之一。　　结合Web内容挖掘的文本分类技术、特征提取技术、特征选择技术,以及模式提取技术,构造基于内容挖掘的Web网页过滤系统模型。模型主要包括网页预处理、文本模式提取、特征选择、训练和过滤等模块,主要通过模式提取技术提取网页文本特征,通过对网页间特征的相似度分析来分类和过滤网页。模式提取算法Teiresias最初用于DNA序列分析,将其改进后用于提取中文网页文本的模式特征以得到需过滤网页类文本的模式库,后将其模式特征向量化后分析其与待过滤文本的相似度,当两者之间的相似度达到一定的阈值即认为此网页将被过滤。为减少网页误判率,在研究特征选择方法的基础上,采用绝对互信息的方法对模式库进行缩减,选取最能代表类别特性的模式作为特征来进行下一阶段的过滤工作,实验表明对网页的误过滤问题有一定的改善作用。通过对系统进行了整体测试与分析,试验结果表明基于内容挖掘的网页过滤模型是实现网页过滤的有效方法之一。

其他文献

多模态视频信息检索

随着多媒体技术以及互联网应用的迅速发展,多媒体数据量特别是视频数据量呈现爆炸式地增长,找到一种行之有效的视频检索方法越来越成为一种必须。高效的视频检索技术能够极大

学位

视频处理基于内容的视频检索多模态特征信息TRECVID子检索模块手动式检索交互式检索

面向广域网阅卷的安全支撑平台设计与实现

网上阅卷是一种为提高阅卷自动化、智能化和共享化而兴起的应用,它通过互联网将阅卷客户端和服务器端连接在一起,数据的传输在互联网上进行。因此,研究和开发一种能够保护网

学位

广域网阅卷安全支撑平台数据处理服务模式

CERNET2安全组播密钥管理系统从IPv4到IPv6迁移的研究与实现

组播通信与单播通信类似,也面临着互联网上潜在的安全问题。有关研究结果给出,结合单播系统中新一代安全标准IPSec,提出了组播安全的相应解决方法,并讨论了安全组播和IPSec的

学位

安全组播逻辑密钥层次(LKH)IPv4:IPv6

汉语言网络统计特性与半监督文档聚类算法研究

随着网络上电子文档呈指数级增长,人们迫切需要能利用计算机自动地处理这些文档,主要包括文档的自动分类、聚类和摘要。本文的侧重点是文档聚类。文档聚类的一般过程包括文本

学位

复杂网络语言网文本挖掘聚类半监督学习算法

基于混沌和循环移位的图像加密算法

随着计算机技术的高速发展,在日常的生活和工作中,越来越多的人采用图片的方式来记录生活和工作中的点点滴滴,因此保证其安全性已经显得越来越重要。由于图像具有信息量大、

学位

图像加密1序列混沌系统循环移位

基于属性的存储系统服务质量研究

随着用户和应用需求的不断增长,存储系统在规模、体系结构等方面都出现了新的变化,系统正朝着大规模、复杂化的方向飞速发展,随之而来的是为了满足各种存储需求而引起的管理

学位

计算机存储系统服务质量控制技术属性管理模型

H.264/AVC算法的研究与优化

随着人们对视频和音频信息的需求愈来愈强烈，追求远距离视音频同步交互成为新的时尚。近些年来，依托计算机技术、通信技术和网络技术的发展，集音频、视频、图像、文字、数据为一

学位

图像传输视频压缩图像编码编码标准

异构云平台中能源高效的虚拟机动态整合研究

近年来云计算吸引了学术界和工业界的广泛关注,随着云计算的迅速发展,世界各地建立起了许多包含成千上万个计算节点的大规模数据中心。云数据中心的运行需要大量的能源消耗,

学位

数据中心能源效率虚拟机动态整合异构性

基于Web服务的房屋信息交换平台的设计与实现

Web服务是一种优秀的分布式的组件技术,以 XML( eXtensible Markup Language)/SOAP(Simple Object Access Protocol)/WSDL(Web Services Description Language)/UDDI(Univers

学位

计算机网络房屋信息交换平台网页服务优化设计

曲线字库自动生成方法的研究

随着计算机技术的发展，世界信息化已成为发展的大潮，中华文化的数字化、信息化，必须以中华语言文字的信息化为前提。汉字字库是中文信息处理的重要基础，因此字库技术成为这一领域

学位

Bezier曲线关键点提取基准弧弦距原则最小二乘法

基于内容挖掘的Web网页过滤方法研究与实现

与本文相关的学术论文