论文部分内容阅读
[摘 要]本文论述了搜索引擎的概念、基本原理、主要功能及作用,并针对国内比较著名的搜索引擎站点进行了详尽的分析,在此基础上,对中文网络搜索引擎发展的现状进行了分析,在看到中文搜索引擎发展的同时,也要看到中文搜索引擎在发展中存在的问题。
[关键词]搜索引擎;对比研究;百度;有道
[中图分类号]G252.7 [文献标识码]A [文章编号]1008-0821(2010)04-0062-04
Chinese Network Search Engine Comparison ResearchChen Hui
(Institute of Scientific and Technical Information of Jilin,Changchun 130021,China)
[Abstract]This article elaborated the search engine concept,the basic principle,the main principle and the function,and aimed at the domestic quite famous search engine stand to carry on the exhaustive analysis,has carried on the analysis to chinese network search engine present situation,saw chinese search engine develops at the same time,also had to pay attention to chinese search engine in development deficiency,this article emphatically elaborated the search engine new technology which proposed in view of chinese search engine deficiency.
[Keywords]search engine;comparative analysis;baidu;youdao
因特网是目前世界上最大的信息资源网,网上资源异常丰富。由于因特网上的信息是无序的,信息量越大,越难被利用。在这种条件下,仅靠传统的检索技术是不够的。目前解决获取和利用因特网上信息的问题的最佳途径就是利用搜索引擎。因特网上的信息呈几何级数增长,快速有效地查询信息是一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。但是如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上找到我们所需要的信息,也是一个需要研究和解决的课题。基于这个目的,笔者对国内现有的主要中文网络搜索引擎进行了比较分析,进而发现中文搜索引擎普遍存在的问题,并针对这些问题粗浅地提出了新形式的网络搜索引擎应当具备的先进技术。
1 主要中文搜索引擎对比
1.1 主要中文搜索引擎概述
1.1.1 Google中文搜索引擎Google搜索(http:∥www.google.com)是很受欢迎的搜索引擎,界面简洁,以搜索结果的准确性著称。两位斯坦福大学的博士生Larry Page和Sergey Brin在1998年创立了Google,几年间迅速发展成为目前规模最大的搜索引擎。其数据库内存有40多亿个Web文件,属于全文搜索引擎。它的检索特色在于采用了网络结构挖掘技术,对万维网的连接结构进行分析和大规模的数据挖掘,从而提供页面等级的信息,帮助用户找到相关主题的权威网站,并且可以指向众多权威站点的相关主题的站点。
1.1.2 百度搜索引擎百度公司于1999年底成立于美国硅谷。百度(http:∥www.baidu.com)是国内惟一商业化的全文搜索引擎,其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Google相媲美,是国内技术水平最高的搜索引擎。百度拥有自己独特的技术——超链分析技术,超链分析是通过分析链接网站的多少来评价被链接网站的质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。超链分析技术是百度的核心技术,它解决了基于网页质量的排序与基于相关性排序相结合的难题。
1.1.3 雅虎中文搜索引擎雅虎中文搜索(http:∥www.yahoo.com.cn)是国外大型搜索引擎登陆中国的第一个中文搜索引擎,同时也是最杰出的目录型搜索引擎的代表。雅虎并不是单纯地提供所有网站网页的全文检索服务,而是将其收集到的网站及网页由人工分门别类加以索引和文摘,以一个分层的线性目录来为用户提供按图索骥式的服务。雅虎比较适合于一般的查询。雅虎不仅能在所有的分类类目中进行查询,也能根据需要在一个类目中进行查询,这样就保证了较高的查准率。雅虎由人工索引的分类数据库,保证了库内数据质量较高,冗余信息较少的优点。对于一个初涉因特网的用户来讲,雅虎精致的分类目录也起到了极好的浏览导游作用[4]。
1.1.4 新浪搜索引擎新浪搜索(http:∥www.sina.com.cn)是目前互联网上规模最大的中文搜索引擎之一,网站收录资源丰富,以中文网站GB码为主。分类目录规范细致,层次合理,遵循中国用户习惯。新浪自建独立的目录索引,共设15大类目录,1万多个子目录,收录网站达20余万,采用百度搜索引擎技术,支持中文域名。2000年11月新浪搜索推出了新一代综合搜索引擎,成为中国第一家可多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息,这项服务在国内尚属惟一[4]。
1.1.5 有道搜索引擎网易有道搜索(http:∥www.youdao.com)最大的特色之一是采用“开放式目录”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5 000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。新版搜索引擎在此基础上,更增加了全新搜索技术及广告搜索服务,这一举措将可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。
期中文搜索引擎的对比研究Apr.,2010Vol.30 No.41.2 主要中文搜索引擎的不同之处
1.2.1 逻辑匹配方法Google支持关键词搜索,以关键词搜索时,返回结果中包含全部及部分关键词;短语搜索时默认以精确匹配方式进行;不支持单词多形态和断词查询。表示逻辑或的OR逻辑符检索输入时,必须以大写形式输入,才能检索出相应的结果。Google现在使用“词干法”,也就是说,在合适的情况下,Google会同时搜索关键词和与关键词相近的字词。词干法对英文搜索尤其有效。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用“”引起来。它不支持模糊匹配,即它只搜索与输入关键词完全一致的字词。百度支持加权检索功能,同时支持“-”号、“.”号、“|”号、“link:”、书名号“《》”等特殊检索命令,并支持多种字段检索。不支持“词干法”和“通配符”检索,中英文均没有停用词。百度默认的是关键词精确搜索,输入多个词语搜索,可以获得更精确的搜索结果。雅虎只能进行关键词检索,并且提供的关键词搜索功能有限,不支持逻辑非功能,只能用AND、OR控制关键词的关系,进行模糊串检索和精确匹配检索,不能进行更全面、更高级的检索。新浪搜索引擎支持多个关键词的查询,并在关键词查询中支持逻辑操作符的使用。关键词查询只支持逻辑与、逻辑或等关系,不支持逻辑非关系。同时还可以定义其他的搜索条件。关键词查询的结果根据与查询要求相匹配的程度排列,质量越高,排列位置越靠前。有道搜索引擎提供中文、英文、日文、俄文等几十种语言关键词检索,采用模糊搜索方式,对用户输入的关键词,先作语言分析,分解成多个词或词组,再去数据中心匹配结果,因此允许用户输入整句。同时现在也使用“词干法”。
1.2.2 资源范围这5种搜索引擎所收录的资源范围均包含所有学科内容,百度和网易所收录的资源类型为网页和新闻组;百度所收录的语言范围是GB、Big5和部分英文;网易收录的语言范围包括GB和部分英文,Google所收录的资源类型包括网页、新闻组、新闻和图像;收录的语言范围是多种语言。雅虎中文搜索所收录的资源类型与Google一致。
1.2.3 信息数据收录量Google检索网页数量达2 400余万,搜索引擎中排名第一;Google数据库存有42.8亿个Web文件。百度支持搜索1.3亿中文网页,是世界上最大的中文搜索引擎。并且百度每天都在增加几十万新网页,对重要中文网页实现每天更新,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。新浪搜索共设15大类目录,10 000多个子目,收录网站达20余万,是规模最大的中文搜索引擎。有道搜索的数据库类型是非全文数据库,由于它采用的是Google技术的数据库,所以它的数据库也同Google一样包括2 400余万网页。雅虎中国收录了全球资讯网上数以万计的中文网站,包括2 400余万网页。不论你要找的网站是用国标码简体字、大五码繁体字还是图形中文,都可以在这里找到。雅虎、Google、百度对于网页的抓取数量较多,这3个搜索引擎索引的互联网网页数多。但是对于时效性强的关键词,Google反应最快,抓取的页面数量也是最多的。
1.2.4 界面风格这五种主要的中文搜索引擎中,Google的搜索界面堪称经典。Google的首页很清爽,logo下面,排列了四大功能模块:网站、图像、新闻组和目录服务。默认是网站搜索。但是,Google是通过用户访问链接来存储页面设定的,所以如果系统禁用用户访问链接,就无法对Google界面进行个人设定了。百度的搜索页面最为简洁,访问速度也是最快的。雅虎在登陆页下方还出现了图文广告,数据量比较大。
1.2.5 辅助手段Google具有Flash文件、网页快照、货币转换、计算器、相关搜索、类似网页、按链接搜索、指定网域、手气不错、错别字改正、中英文字典、天气查询、相关搜索、股票查询、邮编区号、手机号码、定义等辅助功能。百度除了已经具备的百度快照、相关搜索、拼音提示、错别字提示、股票、列车时刻表和飞机航班查询、专业文档搜索、天气查询、计算器和度量衡转换、高级搜索、地区搜索和个性设置、英汉互译词典、高级搜索语法等辅助功能,又增加了专业的MP3搜索、Flash搜索、新闻搜索、信息快递搜索,并正在快速发展其它用户喜欢的搜索功能。雅虎中文搜索引擎在主题查询方式中,将信息分成12大类:艺术、商业和经济、计算机和因特网、教育、娱乐、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。新浪搜索引擎提供视频搜索、MP3搜索、图片搜索、知识人、本地搜索、共享资料、开放词典、大百科、英汉词典、专业搜索、手机搜索等辅助功能。有道搜索包括相关搜索、按链接搜索、指定网域、错别字改正、专业文档搜索、新闻搜索、网页快照、英汉互译词典等辅助功能,虽然辅助功能也很完备,但与Google无法相比。Google和百度搜索引擎的辅助功能相当全面,并且在不断地开发新的功能,在这个方面,是其他中文搜索引擎无法比拟的。
1.2.6 友好方便程度Google智能化的“手气不错”功能,提供可能最符合要求的网站;Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页;Google具有独到的图片搜索功能;Google具有强大的新闻组搜索功能;Google具有二进制文件搜索功能等特殊的功能,这些功能都在很大程度上方便了用户的检索。百度深刻理解中文用户搜索习惯,为中文用户度身定做,开发出关键词自动提示;用户输入拼音,就能获得中文关键词正确提示;百度还开发出中文搜索自动纠错;如果用户误输入错别字,可以自动给出正确关键词提示;百度快照是另一个广受用户欢迎的特色功能,解决了用户上网访问经常遇到死链接的问题[5]。雅虎中文搜索不仅为用户提供了强大的搜索功能,通过其14类简单易用、手工分类的简体中文网站目录及强大的搜索引擎,用户可以轻松搜索到各方面的信息,还可以自动根据用户搜索信息的不同,在结果页面的右边给出相关搜索信息,为获取最新的信息提供了方便。新浪搜索引擎对网页检索的结果进行了技术上的处理,新浪搜索同时采用了站点类聚和内容类聚两种类聚技术方案,这样处理得到的检索结果更方便用户选择自己所需要的信息。有道搜索引擎最大的特色之一是采用“开放式目录”管理方式,提供网站检索、网页检索、行业网站检索及图片检索等查询项目,在此基础上更增加了全新搜索技术及广告搜索服务,这一举措将可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。目前新的搜索技术已被应用到相关产品, 包括目录和网站检索,新闻和频道检索,同学录以及商城,为用户创造了十分便利的检索条件。
1.2.7 数据更新程度Google中文搜索引擎一般半月至1月更新1次,而且仅搜索到三级链接,三级以下便不在搜索,Google是采用不同服务器逐步更新的。Google一般每隔28天派出“蜘蛛”程序检索一定IP地址范围内的新网站,而对现有网站的更新则根据该网站的等级不同有快慢之分。一般来说,网站网页等级越高,更新的频率就越快。百度的更新较快,半月1次,最快1周。百度每天响应来自138个国家超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。雅虎的数据更新速度较慢,因为它的数据库分类和索引都是由人工完成的,所以采集信息的速度远远比不上网络资源的增长速度。新浪搜索引擎与Google搜索引擎合作,借助Google搜索引擎的技术保证了它的数据快速更新。有道页面日均访问量接近3 000万次,查询速度快,链接成功率高。
2 中文搜索引擎的不足之处
2.1 库容量作为搜索引擎,必须要有相当多的库容量才具有一定的代表性和实用性。可以说搜索引擎可搜索的库容量大小是搜索引擎的质量标志的第一要素。从我们考察的中文搜索引擎来看,库容量在50万条记录以上即可在本表上列为“大量”级[8]。但如果将之与AltaVista的巨大库容量相比,则差之甚远。所以说即使是目前较成功的中文搜索引擎,在这一点上也许还远未称得上成功。当然也许是因为网上中文信息还不多,因此中文搜索引擎的库容量还不可能很大,但是从两岸三地因特网的发展情况来看,不上百万网页数据库容量的中文搜索引擎很难说具有一定的代表性。
2.2 响应速率从搜索引擎的实用性来看,必须保证对用户检索表达式一定的响应速度,在这个基础上才谈得上库容量、使用的方便性等其他因素的影响[6]。目前中文搜索引擎的库容量都不是很大,本身对机器硬件的要求还不是相当高,产生响应时延的一个很重要的因素是我们的信息基础设施建设做的还很不够。就国外而言,举例说AltaVista在如此大的库容量情况下,仍能保持这么快的响应速率,令人赞叹。同时这也说明国内中文搜索引擎在硬件及技术方面的路还很长很长。
2.3 核心技术搜索引擎是一个技术含量很高的电脑网络应用系统。它包括网络技术、数据库技术、检索技术、智能技术等等[6]。在这一方面,由于国外的很多先进技术是建立在西文内核的基础上,所以我们还不能单纯引进照搬照抄。作为中文搜索引擎来讲,如何来发挥我们在中文处理上的长处,发展出有我们自己版权的核心技术,使我们在中文搜索引擎的竞争中占有有利地位。
2.4 多样化服务靠提供多样化服务来吸引更多的用户,以此来获取更多的广告收益,这是国外著名搜索引擎的生存之道。而在这一方面,中文搜索引擎也做得远远不够,另外一方面,有些搜索引擎本身库容量及服务不怎么样,主页上的广告倒是一大堆,长此以往,也是不利于自身生存和发展的。
3 结 论本文对搜索引擎的比较研究,只提供了各个搜索引擎的概貌。随着互联网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎面对挑剔的网民的各种搜索需求,有时会显得无奈。但是仍要看到搜索引擎发展的大好前景,中文网络搜索引擎正在以迅猛的速度发展着,我们有理由相信:网络搜索引擎的明天会更美好!
参考文献
[1]冯进.浅谈网络搜索引擎[J].现代情报,2002,(11):65-68.
[2]郭万召.网络搜索引擎的分析与比较研究[J].情报科学,2000,(1):80-84.
[3]徐亚先.搜索引擎功能概述[J].情报科学,2001,(3):46-47.
[4]施建明.网络搜索引擎的比较与分析[J].福建图书馆理论与实践,2003,(2):11-13.
[5]黄文忠.网络搜索引擎百度评析[J].现代情报,2005,25(5):135-136.
[6]上海图书馆《中文搜索引擎的现状与应用》课题组.中文搜索引擎比较研究[EB].http:∥www.nmzol.com /wlxy/win/200501/36752.html,2010-01-02.
[关键词]搜索引擎;对比研究;百度;有道
[中图分类号]G252.7 [文献标识码]A [文章编号]1008-0821(2010)04-0062-04
Chinese Network Search Engine Comparison ResearchChen Hui
(Institute of Scientific and Technical Information of Jilin,Changchun 130021,China)
[Abstract]This article elaborated the search engine concept,the basic principle,the main principle and the function,and aimed at the domestic quite famous search engine stand to carry on the exhaustive analysis,has carried on the analysis to chinese network search engine present situation,saw chinese search engine develops at the same time,also had to pay attention to chinese search engine in development deficiency,this article emphatically elaborated the search engine new technology which proposed in view of chinese search engine deficiency.
[Keywords]search engine;comparative analysis;baidu;youdao
因特网是目前世界上最大的信息资源网,网上资源异常丰富。由于因特网上的信息是无序的,信息量越大,越难被利用。在这种条件下,仅靠传统的检索技术是不够的。目前解决获取和利用因特网上信息的问题的最佳途径就是利用搜索引擎。因特网上的信息呈几何级数增长,快速有效地查询信息是一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。但是如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上找到我们所需要的信息,也是一个需要研究和解决的课题。基于这个目的,笔者对国内现有的主要中文网络搜索引擎进行了比较分析,进而发现中文搜索引擎普遍存在的问题,并针对这些问题粗浅地提出了新形式的网络搜索引擎应当具备的先进技术。
1 主要中文搜索引擎对比
1.1 主要中文搜索引擎概述
1.1.1 Google中文搜索引擎Google搜索(http:∥www.google.com)是很受欢迎的搜索引擎,界面简洁,以搜索结果的准确性著称。两位斯坦福大学的博士生Larry Page和Sergey Brin在1998年创立了Google,几年间迅速发展成为目前规模最大的搜索引擎。其数据库内存有40多亿个Web文件,属于全文搜索引擎。它的检索特色在于采用了网络结构挖掘技术,对万维网的连接结构进行分析和大规模的数据挖掘,从而提供页面等级的信息,帮助用户找到相关主题的权威网站,并且可以指向众多权威站点的相关主题的站点。
1.1.2 百度搜索引擎百度公司于1999年底成立于美国硅谷。百度(http:∥www.baidu.com)是国内惟一商业化的全文搜索引擎,其功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前的搜索引擎业界领军人物Google相媲美,是国内技术水平最高的搜索引擎。百度拥有自己独特的技术——超链分析技术,超链分析是通过分析链接网站的多少来评价被链接网站的质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。超链分析技术是百度的核心技术,它解决了基于网页质量的排序与基于相关性排序相结合的难题。
1.1.3 雅虎中文搜索引擎雅虎中文搜索(http:∥www.yahoo.com.cn)是国外大型搜索引擎登陆中国的第一个中文搜索引擎,同时也是最杰出的目录型搜索引擎的代表。雅虎并不是单纯地提供所有网站网页的全文检索服务,而是将其收集到的网站及网页由人工分门别类加以索引和文摘,以一个分层的线性目录来为用户提供按图索骥式的服务。雅虎比较适合于一般的查询。雅虎不仅能在所有的分类类目中进行查询,也能根据需要在一个类目中进行查询,这样就保证了较高的查准率。雅虎由人工索引的分类数据库,保证了库内数据质量较高,冗余信息较少的优点。对于一个初涉因特网的用户来讲,雅虎精致的分类目录也起到了极好的浏览导游作用[4]。
1.1.4 新浪搜索引擎新浪搜索(http:∥www.sina.com.cn)是目前互联网上规模最大的中文搜索引擎之一,网站收录资源丰富,以中文网站GB码为主。分类目录规范细致,层次合理,遵循中国用户习惯。新浪自建独立的目录索引,共设15大类目录,1万多个子目录,收录网站达20余万,采用百度搜索引擎技术,支持中文域名。2000年11月新浪搜索推出了新一代综合搜索引擎,成为中国第一家可多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息,这项服务在国内尚属惟一[4]。
1.1.5 有道搜索引擎网易有道搜索(http:∥www.youdao.com)最大的特色之一是采用“开放式目录”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5 000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。新版搜索引擎在此基础上,更增加了全新搜索技术及广告搜索服务,这一举措将可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。
期中文搜索引擎的对比研究Apr.,2010Vol.30 No.41.2 主要中文搜索引擎的不同之处
1.2.1 逻辑匹配方法Google支持关键词搜索,以关键词搜索时,返回结果中包含全部及部分关键词;短语搜索时默认以精确匹配方式进行;不支持单词多形态和断词查询。表示逻辑或的OR逻辑符检索输入时,必须以大写形式输入,才能检索出相应的结果。Google现在使用“词干法”,也就是说,在合适的情况下,Google会同时搜索关键词和与关键词相近的字词。词干法对英文搜索尤其有效。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用“”引起来。它不支持模糊匹配,即它只搜索与输入关键词完全一致的字词。百度支持加权检索功能,同时支持“-”号、“.”号、“|”号、“link:”、书名号“《》”等特殊检索命令,并支持多种字段检索。不支持“词干法”和“通配符”检索,中英文均没有停用词。百度默认的是关键词精确搜索,输入多个词语搜索,可以获得更精确的搜索结果。雅虎只能进行关键词检索,并且提供的关键词搜索功能有限,不支持逻辑非功能,只能用AND、OR控制关键词的关系,进行模糊串检索和精确匹配检索,不能进行更全面、更高级的检索。新浪搜索引擎支持多个关键词的查询,并在关键词查询中支持逻辑操作符的使用。关键词查询只支持逻辑与、逻辑或等关系,不支持逻辑非关系。同时还可以定义其他的搜索条件。关键词查询的结果根据与查询要求相匹配的程度排列,质量越高,排列位置越靠前。有道搜索引擎提供中文、英文、日文、俄文等几十种语言关键词检索,采用模糊搜索方式,对用户输入的关键词,先作语言分析,分解成多个词或词组,再去数据中心匹配结果,因此允许用户输入整句。同时现在也使用“词干法”。
1.2.2 资源范围这5种搜索引擎所收录的资源范围均包含所有学科内容,百度和网易所收录的资源类型为网页和新闻组;百度所收录的语言范围是GB、Big5和部分英文;网易收录的语言范围包括GB和部分英文,Google所收录的资源类型包括网页、新闻组、新闻和图像;收录的语言范围是多种语言。雅虎中文搜索所收录的资源类型与Google一致。
1.2.3 信息数据收录量Google检索网页数量达2 400余万,搜索引擎中排名第一;Google数据库存有42.8亿个Web文件。百度支持搜索1.3亿中文网页,是世界上最大的中文搜索引擎。并且百度每天都在增加几十万新网页,对重要中文网页实现每天更新,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。新浪搜索共设15大类目录,10 000多个子目,收录网站达20余万,是规模最大的中文搜索引擎。有道搜索的数据库类型是非全文数据库,由于它采用的是Google技术的数据库,所以它的数据库也同Google一样包括2 400余万网页。雅虎中国收录了全球资讯网上数以万计的中文网站,包括2 400余万网页。不论你要找的网站是用国标码简体字、大五码繁体字还是图形中文,都可以在这里找到。雅虎、Google、百度对于网页的抓取数量较多,这3个搜索引擎索引的互联网网页数多。但是对于时效性强的关键词,Google反应最快,抓取的页面数量也是最多的。
1.2.4 界面风格这五种主要的中文搜索引擎中,Google的搜索界面堪称经典。Google的首页很清爽,logo下面,排列了四大功能模块:网站、图像、新闻组和目录服务。默认是网站搜索。但是,Google是通过用户访问链接来存储页面设定的,所以如果系统禁用用户访问链接,就无法对Google界面进行个人设定了。百度的搜索页面最为简洁,访问速度也是最快的。雅虎在登陆页下方还出现了图文广告,数据量比较大。
1.2.5 辅助手段Google具有Flash文件、网页快照、货币转换、计算器、相关搜索、类似网页、按链接搜索、指定网域、手气不错、错别字改正、中英文字典、天气查询、相关搜索、股票查询、邮编区号、手机号码、定义等辅助功能。百度除了已经具备的百度快照、相关搜索、拼音提示、错别字提示、股票、列车时刻表和飞机航班查询、专业文档搜索、天气查询、计算器和度量衡转换、高级搜索、地区搜索和个性设置、英汉互译词典、高级搜索语法等辅助功能,又增加了专业的MP3搜索、Flash搜索、新闻搜索、信息快递搜索,并正在快速发展其它用户喜欢的搜索功能。雅虎中文搜索引擎在主题查询方式中,将信息分成12大类:艺术、商业和经济、计算机和因特网、教育、娱乐、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。新浪搜索引擎提供视频搜索、MP3搜索、图片搜索、知识人、本地搜索、共享资料、开放词典、大百科、英汉词典、专业搜索、手机搜索等辅助功能。有道搜索包括相关搜索、按链接搜索、指定网域、错别字改正、专业文档搜索、新闻搜索、网页快照、英汉互译词典等辅助功能,虽然辅助功能也很完备,但与Google无法相比。Google和百度搜索引擎的辅助功能相当全面,并且在不断地开发新的功能,在这个方面,是其他中文搜索引擎无法比拟的。
1.2.6 友好方便程度Google智能化的“手气不错”功能,提供可能最符合要求的网站;Google的“网页快照”功能,能从Google服务器里直接取出缓存的网页;Google具有独到的图片搜索功能;Google具有强大的新闻组搜索功能;Google具有二进制文件搜索功能等特殊的功能,这些功能都在很大程度上方便了用户的检索。百度深刻理解中文用户搜索习惯,为中文用户度身定做,开发出关键词自动提示;用户输入拼音,就能获得中文关键词正确提示;百度还开发出中文搜索自动纠错;如果用户误输入错别字,可以自动给出正确关键词提示;百度快照是另一个广受用户欢迎的特色功能,解决了用户上网访问经常遇到死链接的问题[5]。雅虎中文搜索不仅为用户提供了强大的搜索功能,通过其14类简单易用、手工分类的简体中文网站目录及强大的搜索引擎,用户可以轻松搜索到各方面的信息,还可以自动根据用户搜索信息的不同,在结果页面的右边给出相关搜索信息,为获取最新的信息提供了方便。新浪搜索引擎对网页检索的结果进行了技术上的处理,新浪搜索同时采用了站点类聚和内容类聚两种类聚技术方案,这样处理得到的检索结果更方便用户选择自己所需要的信息。有道搜索引擎最大的特色之一是采用“开放式目录”管理方式,提供网站检索、网页检索、行业网站检索及图片检索等查询项目,在此基础上更增加了全新搜索技术及广告搜索服务,这一举措将可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。目前新的搜索技术已被应用到相关产品, 包括目录和网站检索,新闻和频道检索,同学录以及商城,为用户创造了十分便利的检索条件。
1.2.7 数据更新程度Google中文搜索引擎一般半月至1月更新1次,而且仅搜索到三级链接,三级以下便不在搜索,Google是采用不同服务器逐步更新的。Google一般每隔28天派出“蜘蛛”程序检索一定IP地址范围内的新网站,而对现有网站的更新则根据该网站的等级不同有快慢之分。一般来说,网站网页等级越高,更新的频率就越快。百度的更新较快,半月1次,最快1周。百度每天响应来自138个国家超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。雅虎的数据更新速度较慢,因为它的数据库分类和索引都是由人工完成的,所以采集信息的速度远远比不上网络资源的增长速度。新浪搜索引擎与Google搜索引擎合作,借助Google搜索引擎的技术保证了它的数据快速更新。有道页面日均访问量接近3 000万次,查询速度快,链接成功率高。
2 中文搜索引擎的不足之处
2.1 库容量作为搜索引擎,必须要有相当多的库容量才具有一定的代表性和实用性。可以说搜索引擎可搜索的库容量大小是搜索引擎的质量标志的第一要素。从我们考察的中文搜索引擎来看,库容量在50万条记录以上即可在本表上列为“大量”级[8]。但如果将之与AltaVista的巨大库容量相比,则差之甚远。所以说即使是目前较成功的中文搜索引擎,在这一点上也许还远未称得上成功。当然也许是因为网上中文信息还不多,因此中文搜索引擎的库容量还不可能很大,但是从两岸三地因特网的发展情况来看,不上百万网页数据库容量的中文搜索引擎很难说具有一定的代表性。
2.2 响应速率从搜索引擎的实用性来看,必须保证对用户检索表达式一定的响应速度,在这个基础上才谈得上库容量、使用的方便性等其他因素的影响[6]。目前中文搜索引擎的库容量都不是很大,本身对机器硬件的要求还不是相当高,产生响应时延的一个很重要的因素是我们的信息基础设施建设做的还很不够。就国外而言,举例说AltaVista在如此大的库容量情况下,仍能保持这么快的响应速率,令人赞叹。同时这也说明国内中文搜索引擎在硬件及技术方面的路还很长很长。
2.3 核心技术搜索引擎是一个技术含量很高的电脑网络应用系统。它包括网络技术、数据库技术、检索技术、智能技术等等[6]。在这一方面,由于国外的很多先进技术是建立在西文内核的基础上,所以我们还不能单纯引进照搬照抄。作为中文搜索引擎来讲,如何来发挥我们在中文处理上的长处,发展出有我们自己版权的核心技术,使我们在中文搜索引擎的竞争中占有有利地位。
2.4 多样化服务靠提供多样化服务来吸引更多的用户,以此来获取更多的广告收益,这是国外著名搜索引擎的生存之道。而在这一方面,中文搜索引擎也做得远远不够,另外一方面,有些搜索引擎本身库容量及服务不怎么样,主页上的广告倒是一大堆,长此以往,也是不利于自身生存和发展的。
3 结 论本文对搜索引擎的比较研究,只提供了各个搜索引擎的概貌。随着互联网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎面对挑剔的网民的各种搜索需求,有时会显得无奈。但是仍要看到搜索引擎发展的大好前景,中文网络搜索引擎正在以迅猛的速度发展着,我们有理由相信:网络搜索引擎的明天会更美好!
参考文献
[1]冯进.浅谈网络搜索引擎[J].现代情报,2002,(11):65-68.
[2]郭万召.网络搜索引擎的分析与比较研究[J].情报科学,2000,(1):80-84.
[3]徐亚先.搜索引擎功能概述[J].情报科学,2001,(3):46-47.
[4]施建明.网络搜索引擎的比较与分析[J].福建图书馆理论与实践,2003,(2):11-13.
[5]黄文忠.网络搜索引擎百度评析[J].现代情报,2005,25(5):135-136.
[6]上海图书馆《中文搜索引擎的现状与应用》课题组.中文搜索引擎比较研究[EB].http:∥www.nmzol.com /wlxy/win/200501/36752.html,2010-01-02.