分布式搜索引擎缓存系统的设计与实现

被引量 : 1次 | 上传用户:daemon999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据CNNIC2011年1月发布的《第27次中国互联网发展状况统计报告》,截至2010年12月,中国网民规模达到4.57亿,搜索引擎使用率达到81.9%,成为网民第一大应用,.与此同时,中文网页总数已达600亿个,较2009年增长了78.6%。互联网的飞速发展,给搜索引擎提出了新的难题。由于网络信息的爆炸性增长,大规模的Web搜索引擎平均每秒需要处理上万次查询请求,每个查询的处理需要涉及到海量的索引数据,因此查询处理已经成为搜索引擎的主要的性能瓶颈。为了在不降低查询质量的前提下,提高搜索引擎的响应速度,大规模的Web搜索引擎采用了各种优化技术,缓存技术便是其中之一。搜索引擎的缓存系统一般来说主要包含两个层次,第一个层次是结果缓存,它将那些频繁出现查询的检索结果存放到缓存当中,这样当该查询再次出现时,便可直接在缓存中命中,从而极大的提高了查询响应速度。另一层次是倒排链缓存,由于搜索引擎处理的倒排索引容量一般都很大,无法完全将其加载到内存,因此在检索的时候经常需要从磁盘读入索引文件。由于磁盘读写的速度比内存慢很多,导致检索的大部分时间都耗费在了磁盘读写上。倒排链缓存就是为了减少与磁盘I/O的通信,根据一定的策略将一部分倒排链加载到内存,从而提高了系统的平均检索速度。本文以中科院计算所I3Search检索核心与分布式检索平台为基础,设计实现了一个两层的分布式搜索引擎缓存系统,并提出了一种新的检索结果缓存算法,该算法能够在索引快速更新的情况下,提高搜索引擎的查询处理速度,同时有效的保证了查询结果的质量。此外,本文还提出了一种新的查询成本度量方法,将该方法用于到结果缓存后,取得了较好的性能提升。本文的主要工作有:1)倒排链缓存在I3Search检索核心中添加倒排链缓存模块,并根据查询日志中term出现的频率,倒排链长度等因素,在内存中缓存总体收益最大的倒排链,从而提高I3Search的查询处理性能。2)结果缓存本文设计并实现了一种新的结果缓存算法,该算法以文档为单位对查询结果进行缓存,在保证缓存命中率的同时,还对由于索引更新而带来的缓存失效问题进行了有效的解决,从而降低了系统的查询负载。
其他文献
按开放式系统互连参考模型层次的顺序,从下至上地介绍了各层对移动性支持的研究进展,总结其优势和不足,指出切换设计和服务质量保证决定移动互联网的成败,而重叠覆盖网络优化
在机动车持续增长和能源紧缺的形势下,发展和完善发动机NOx控制技术对减少全球NOx排放有十分重要的意义。面对越来越严格的排放法规,在众多的排气后处理措施中Urea-SCR技术被
低速永磁同步电机的主要振动噪声源是定子所受的交变电磁力,由永磁磁场和电枢磁场共同作用产生。该文提出一种表贴式永磁电机在电枢磁场作用下的定子受力计算模型,以定子齿部
辞章之四大要素为“情”、“理”、“景(物)”、“事”,其中“情”与“理”为“意”、“景(物)”与“事”为“象”。而它们之所以能相互连结,自来虽有“移情”、“投射”之理论加以
针对冶金、矿山、电力等负载具有低速大转矩要求的机械装备中使用的感应电机一齿轮减速机驱动结构存在的成本高,传动效率低,伴有严重振动和噪声等弊端,提出了真分数槽绕组低
兰考县是河南省十个直管县试点之一,实行省直管更有利于实现自我发展。兰考实现自我发展,在搞好产业集聚区建设的同时,必须充分发挥自身政治文化优势。发挥自身优势,大力弘扬
旅游业已成为一些国家和我国一些省市的重要经济支柱。一方面各地都在大力扶持旅游产业,另一方面旅游发展中的问题也不断凸显。河南是旅游资源大省,但要实现全域旅游最终成为
<正>所谓文本意蕴重构就是指立足学生阅读期待,以促进学生精神成长为目标,在教师、学生、文本三维对话的基础上所建构的文本意义。文本意蕴的重构不是对文本意义的复制,而是
扩大德语词汇量是提高德语水平的关键问题。作者对德语术语词汇的词法特征、构词法的结构原则、构词要素进行了系统的分析和阐述,并探讨了日用语言和专业语言词汇变化的特征
汽车钢板弹簧是悬架系统的一个重要组成部分之一,其功能和作用是传递作用在车轮和车架之间的一切力和力矩,缓和由于路面不平而传递给车架的冲击载荷,并衰减由此引起承载系统