论文部分内容阅读
近年来,人们意识到保存Web的重要性,国内外有了保存历史网页的系统,其中北京大学网络实验室研发的Web InfoMall系统已经存储了从2002年至今的中国互联网上超过30亿的网页,在这个数据集上构建历史网页搜索系统对信息内容的深度挖掘具有重要意义。目前针对历史网页搜索系统的研究还很少。
在一般的网页搜索系统(搜索引擎)中,通常是按相关度高低对检索结果进行排序。而历史网页有很长的时间跨度,因此一种自然而然的想法就是将检索结果按时间顺序来排序,这样用户可以在时间轴上对所关心的检索对象进行纵向比较,在客观上要求系统能够比较准确地判断文档与查询词是否相关。因此,历史网页检索算法的设计是历史网页搜索系统中的一个核心研究点。本文在此问题上有如下贡献:
1.提出了基于领域的历史网页检索新模式,解决了由于用户输入的查询词描述力不足,而使按时间排序返回的检索结果因涉及多个方向的网页而非常混乱的问题。“领域”是描述同一个方向的检索内容的集体特征,由一组相关关键词(或常见术语)组成,引入“领域”用来帮助用户描述其检索请求;
2.针对历史网页检索结果按时间顺序排序的特殊需求及检索请求中“领域”的引入,设计了一种带衰减因子的BM25检索相关性计算算法,并且分析了领域
关键词对检索效果的影响,提出了相关性阈值的估计方法及调整策略。实验结果表明引入领域后检索结果的最优F值平均提高了59.78%;
3.设计检索算法的对比实验,将本文设计的检索算法与目前研究的几种有代表性的检索算法应用于历史网页检索进行对比,得到本文设计的检索算法用在历史网页检索中效果最好的结论;
4.将本文研究的历史网页检索算法应用于Web InfoMall的历史网页搜索系统His Trace当中,设计并实现了HisTrace领域检索子系统,取得了不错的实用效果。