论文部分内容阅读
去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了一种根据词频统计的抽取特征词和特征句,并根据特征句来判别重复网页的方法。同时将其运用到了跨语言的重复网页的识别上。实验结果表明:该方法对重复网页的识别准确率高,达到了实用的程度。同时,该方法对于双语平行语料的自动挖掘也有一定的帮助。本文主要进行了以下几个方面的工作:1.给出重复网页的定义,并根据定义设计出重复网页的识别算法。2.研究单语网页去重的高效算法,使得算法可以达到实用化的程度。并进行了测试。3.跨语言信息检索是信息检索研究的一个热点,本文也研究了跨语言网页去重的算法,以适应互联网信息检索的发展趋势。