应用于历史网页搜索系统的检索算法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:fntshb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们意识到保存Web的重要性,国内外有了保存历史网页的系统,其中北京大学网络实验室研发的Web InfoMall系统已经存储了从2002年至今的中国互联网上超过30亿的网页,在这个数据集上构建历史网页搜索系统对信息内容的深度挖掘具有重要意义。目前针对历史网页搜索系统的研究还很少。   在一般的网页搜索系统(搜索引擎)中,通常是按相关度高低对检索结果进行排序。而历史网页有很长的时间跨度,因此一种自然而然的想法就是将检索结果按时间顺序来排序,这样用户可以在时间轴上对所关心的检索对象进行纵向比较,在客观上要求系统能够比较准确地判断文档与查询词是否相关。因此,历史网页检索算法的设计是历史网页搜索系统中的一个核心研究点。本文在此问题上有如下贡献:   1.提出了基于领域的历史网页检索新模式,解决了由于用户输入的查询词描述力不足,而使按时间排序返回的检索结果因涉及多个方向的网页而非常混乱的问题。“领域”是描述同一个方向的检索内容的集体特征,由一组相关关键词(或常见术语)组成,引入“领域”用来帮助用户描述其检索请求;   2.针对历史网页检索结果按时间顺序排序的特殊需求及检索请求中“领域”的引入,设计了一种带衰减因子的BM25检索相关性计算算法,并且分析了领域   关键词对检索效果的影响,提出了相关性阈值的估计方法及调整策略。实验结果表明引入领域后检索结果的最优F值平均提高了59.78%;   3.设计检索算法的对比实验,将本文设计的检索算法与目前研究的几种有代表性的检索算法应用于历史网页检索进行对比,得到本文设计的检索算法用在历史网页检索中效果最好的结论;   4.将本文研究的历史网页检索算法应用于Web InfoMall的历史网页搜索系统His Trace当中,设计并实现了HisTrace领域检索子系统,取得了不错的实用效果。  
其他文献
随着我国经济的发展和科技的进步,汽车已经变得越来越普及,已经成为人们生活中不可以缺少的交通工具。汽车在给我们生活提供便利的同时,它的故障也给我们的安全带来了隐患。
动态嵌入式木马文件是由实现木马功能的代码加上一些特殊代码写成的DLL文件,并嵌入到进程中实现恶意功能。由于动态嵌入式木马具有良好的隐藏性,该木马经常被用来盗取银行或
随着信息技术的发展,数据仓库技术得到了前所未有的广泛应用,产生了巨大的经济效益。但是,随着市场经济步伐的加快和市场竞争的日趋激烈,传统的数据仓库技术已经不能很好地满足当
随着智能技术的迅速发展,人们试图应用知识工程、专家系统等技术,以计算机模拟人类专家对复杂系统进行故障诊断的方法,综合多个专家的最佳知识和经验,实现机械故障的快速分析
语义分析是自然语言处理领域的重要问题,也是当前研究的热点和难点问题。由于深层语义分析在目前的技术背景下还难以实现,特别是自动句法分析的瓶颈很难逾越,于是很多学者开
IPv6是在IPv4运行基础上发展起来的更为完善的Internet协议,是下一代互联网络的基础通信协议。IPv6协议栈涉及大量的协议规范,且相当一部分仍在讨论中。由于Internet应用在很大
目前,我国还没有提出完整的RFID(Radio Frequency Identification,无线射频识别)应用架构,相关的RFID支撑技术、产业发展的基础设施、测试认证、政策环境都还没有建立起来,关于编码
随着计算机网络、通信和控制技术的发展,以太网技术在工业控制领域中的应用倍受关注。但控制系统对高可用性和稳定性的要求限制了工业以太网的发展。同时面对国内工业生产的安
如今Web服务广泛分布于互联网中,它们通过彼此之间的交互实现对问题的协作求解。然而,在交互过程中,一些非预期、“不正常”的信息交互时有发生,严重影响了系统的质量及健壮
射频识别(Radio Frequency Identification,RFID)是一种利用射频信号自动识别目标对象并获取相关信息的技术。由于传统的定位技术不能满足室内定位环境和精度的要求,而RFID技术所