基于向量空间模型的网页过滤研究

来源 :北京化工大学 | 被引量 : 11次 | 上传用户:nihao136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的飞速发展,用户可以通过网络方便快捷地利用海量的共享信息,同时“信息爆炸”、“信息过载”、“信息垃圾”等很多问题日趋严重。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经使我们亟待解决的问题。基于以上存在的问题,本文提出了一个基于局域网中的信息过滤研究的课题。它不仅可以实现不良网页的过滤,也可以实现基于兴趣主题的网页过滤。本文介绍了网页文本过滤的发展现状、信息过滤的方法,并详细讨论了在网页文本过滤中所用到的关键技术及其实现的过程。基于网页的过滤研究,本文是采用了分级过滤的策略,首先是对流经网关的数据包实行基于IP和关键字的过滤技术,然后重点论述了基于DOM树的网页正文抽取的实现过程和基于内容的过滤技术。对于网页正文的提取部分本文实现了基于DOM树的正文提取方法。它使用户能够根据自己的需要设定参数并得到想要的结果,这样网页内容的提取结果不随网页结构的变化而变化。基于内容的过滤技术包含两个重要部分,即对网络数据信息的处理部分和对网页文本的信息处理部分。对网络数据信息的处理部分,本文主要论述了基于Windows的WinPcap下数据包的捕获,通过对TCP协议、IP协议、HTTP消息的分析,过滤掉不包含texthtml的数据包,然后实现一种链表重装的数据包还原算法把网页还原出来,同时在基于关键字过滤的过程中,本文采用了改进后的多关键字匹配算法,即基于协议分析的多关键字匹配算法,可以提高匹配效率。在网页文本的处理部分,主要对网页正文的提取进行了实现和文本表示进行了改进。针对网页这种特殊的文档,本文用改进的向量空间模型来表示文本。本文就是通过依次提取模板中的特征词,在网页文本出现的位置进行精确处理,避免了对整篇文档进行处理,尤其是当信息流中非相关文档多于相关文档以及大文本数据的处理,可以大大提高网页处理时间和精确度。最后,本文论述了对用户模板的学习,采用了改进了Rocchio算法来更新模板,提高了网页过滤的精确率。
其他文献
D-S证据理论在推理应用中,证据理论合成规则,提供了一种处理多数据源不确定信息推理和融合的有效方法。近年来,在医学诊断、目标识别、军事等许多应用领域,需要综合考虑来自各个
伴随着无线通信技术在人们日常生活中的普及,通信系统中受限的资源已无法满足用户需求,开始影响系统的工作效率。现急需一种高效的资源分配算法,在确保高QOS(Quality of Serv
智能交通系统是计算机视觉的重要应用领域。车牌是交通场景图像中常见到的目标类,车牌的检测与识别技术是许多智能视频分析应用系统的基础。在车牌检测与识别的应用工程中,由
聚类分析是数据挖掘的核心技术之一,但现有的多种聚类算法在编程语言的选用、对外提供的接口上存在着很大差异,这些差异给应用聚类方法分析问题的研究人员带来了不便。问题求
P2P网络的“分散、半可信和动态性”使传统公钥基础设施(PKI)的证书管理困难和基于身份公钥密码体制(ID-PKC)的密钥托管问题特别突出,因此P2P网络的安全问题成为公认的难题。
近年来,随着Internet的迅速发展,对等网络技术(P2P)已经逐渐成为了热门话题。P2P文件共享技术通过用户之间的对等连接实现资源共享,不依赖于提供服务的中心节点,突破了服务器瓶颈
随着社会经济与科学技术的高速发展,在统筹协调问题上,如何高效、合理地分配运动俱乐部的场务资源已成为俱乐部和计算机业内人士普遍关注的问题。考察现有俱乐部Tee台资源分配
随着P2P(对等)网络的快速发展,为了在两个陌生用户之间建立信任,提出了信任协商的概念。在两个安全域之间建立信任需要交换大量的证书。两个陌生用户之间交换证书时,总是会担
自从改革开放以来,我国经济高速地发展,航海运输业也日益繁荣。随着港口货物吞吐量的迅速增加,船舶交通量的不断增大,通航环境越来越复杂,水上交通安全管理的难度也逐渐加大。所以
Android系统作为智能手机的主要操作系统之一,凭借其强大的功能,丰富的应用获得了用户的青睐,市场占有率稳居第一。然而,Android系统在为人们提供方便产生极大经济效益的同时