专业搜索引擎中网页去重技术研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:feboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的资料浩如烟海,网络信息呈指数级增长。一次检索后的平均返回结果数量依然巨大,传统的搜索引擎动辄返回几万、几十万篇文档。其中不乏大量的转载、重复信息,用户不得不在结果中进行筛选。大量的重复网页不仅影响搜索引擎系统的搜索精度和搜索效率,同时还浪费大量的数据存储空间。因此,如何快速准确地发现并去除这些重复网页,已经成为提高搜索引擎服务质量的关键技术之一。   现有的基于词频统计的去重算法具有准确率高的优点,在实际应用中效果较好。但是,因为在重复性判断过程中需要进行精确的相似度计算。计算量和存储量巨大,不适合于搜索引擎中大规模的网页去重计算。因此,本文在对国内外已有算法进行比较和分析的基础上,针对专业搜索引擎的特点,对各主要技术模块分别进行探讨,最后提出了改进的基于词频统计的网页去重算法。   该算法主要分为两步进行:   第一步,通过计算网页文档用词重叠度,判断文档中使用的专业关键词集合是否大致相同。以快速粗略判断两篇文档是否可能为重复文档,排除大量的非重复文档。   第二步,在满足上一步判断基础上,进一步判断两篇文档在各专业关键词用词频率上是否相同。以避免文本向量维分布的稀疏性对判断精确度的影响,实现对重复性的精确判断。   论文最后通过实验将本文提出的网页去重算法与已有算法进行对比分析,证明了本文提出算法的可行性和合理性。  
其他文献
竞技参赛理论体系由赛前准备、参赛指导、参赛表现、参赛控制和赛后认知构成。其中,参赛表现和参赛控制是核心。本研究运用文献资料、测量调查、访谈调查、观察调查和个案研