论文部分内容阅读
搜索引擎已经成为人们获取信息最主要的途径。与传统的获取信息方式相比,搜索引擎返回的信息更快速、更便捷、更全面。搜索引擎已经成为电子时代不可缺少的一部分。但是由于电子信息的特殊性,网络上有很多重复的信息,即在不同的网页地址上内容却是相同的,或者大体一致的。为了提高搜索引擎和用户检索的效率,网页查重的研究是非常必要的。网页查重主要包括两部分,一是对原始网页的处理,主要是对网页噪音净化以及对网页主题信息的提取;二是对网页内容进行查重处理。目前许多研究机构都在进行网页相似度的研究,也提出了一些相似度检测的方法,主要有三种类型:url分析、链接分析和内容分析。本文首先介绍了已有网页净化方法,并详细介绍了课题研究采用的Jtidy净化方法。其原理是JTidy被parseDOM方法调用,得到一个xml文档的InputStream类,并且形成一个DOM树,再利用标准的DOM API方法,使用简单的语句对DOM进行遍历,提取文档特定标签之间的内容以便建立索引;然后介绍了网页相似度检测方法,对现有的方法进行了讨论分析,并提出了使用bloom filter基于内容的检测相似性的方法。其具体过程是对净化后的网页文件,使用CDC进行内容块的分割,使每个网页成为许多内容块的集合。再对各个网页的内容块进行hash,得到各个网页的bloom filter,并将其保存。通过新增网页的bloom filter与已存储的bloom filter进行位与操作进行判定,如果达到给定阈值,则判断为相似网页;最后介绍了网页查重的分析与实现,给出了算法中用到的数据表文件,分析了相似程度对于相似文件数量的影响,查询词的流行度对相似文件数目的影响,以及文档bloom filter产生时间和执行相似度比较的响应时间。