论文部分内容阅读
文本消重是搜索引擎中的一项重要技术,能将搜集到的网页中的近似镜像网页去掉,而后再建索引提供服务,这样用户查询时就不会出现大量内容重复的网页。通过对近似镜像文本检测算法的分析和研究,提出了应用MD5指纹的近似镜像算法对文本文档进行消重处理的方法,并将该算法在基于P2PKM的学习支持平台上的索引模块中作了测试。测试结果表明,这种算法的应用,知识包中的重复文档有了明显的减少。