论文部分内容阅读
现阶段,互联网行业的蓬勃发展是有目共睹的。以百度、阿里、腾讯为首的互联网公司竞相角逐,抢占着每一片互联网市场,例如最近一年非常火的O2O电商(online to offline,即线下商品,线上交易),2014年过年非常红的微信红包、百度的大数据迁徙等,互联网都在深刻的改变着人们的生活。在互联网的世界里,有一块市场非常重要,它是互联网的入口,80%以上的互联网流量都需要经过它的分发,这就是搜索引擎。因为互联网公司的网址实在太多,网页数更是可怕,Google(谷歌)目前统计的数字是100亿,大部分想去各家网站的人都会选择通过搜索行为进行跳转。从中我们可看出搜索引擎的好坏直接决定着人们的互联网生活,决定着整个互联网流量的分发,对整个互联网生态都有很大的影响。本文先简单介绍了搜索引擎的背景和意义,说明了研究搜索引擎的重大意义。介绍了搜索引擎的国内外动态,重点介绍了Google和百度,这是现阶段最成功的两家搜索引擎,他们的现状对搜索生态的发展至关重要,最后引出了搜索引擎算法的现状和不足,并提出了解决办法。现阶段搜索引擎主要的搜索算法分爬取部分和排序部分。第二章重点介绍了现阶段的爬虫策略和排序策略,这些策略很多都是个人使用后的一些感触。通过对算法的分析,提出了新的算法:爬取部分的广度优先搜索的并行化思想以及排序策略部分的页面评分排序策略。第三章从产品化策略去分析搜索引擎,单从搜索算法上去看搜索,并不是一个搜索引擎的全部,和真正的搜索引擎相差很远。第三章通过在搜索引擎公司的实习,学到了一个真正的搜索引擎是什么样子的,单纯的算法只是其中的一小部分,提出通过产品化的策略提升搜索引擎的搜索效果,并进行了详细的介绍和分析。第四章主要是针对第二章提出的两种改进算法,在Linux系统上通过集成Nutch爬虫[20]、Solr服务器(主流搜索引擎数据存储服务器)、tomcat监控器、中文分词、前端页面等控件,实现了一个真实的搜索引擎,并对其中很多的代码进行修改,实现了广度优先并行化算法和页面评分排序策略,通过最后的实验数据分析,证明了对爬取效率和排序策略的提升。最后简单介绍了搜索引擎的发展方向,给出了一个比较良好的愿景。可以让人们享受到更好的搜索服务。搜索引擎还是有很大的发展空间的。很多技术现阶段都没有实现,例如个性化搜索、智能化搜索等。