搜索引擎的动力引擎

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:zhanghuatao88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  互联网行业竞争激烈,能否得到更多用户的认可是企业生存的根本,而认可的关键就在于服务是否及时、优质、准确。搜狗是搜狐于2005年推出的全球首个第三代互动式中文搜索引擎,在搜狐的整体发展战略中占据十分重要的地位。搜狗的产品线包括了网页应用和桌面应用两大部分。如何在强手如林的搜索引擎市场占据有利地形,是一个必须回答的重要“命题”。
  
  海量数据检索带来的挑战
  
  搜索引擎的最大难题是正确理解和满足用户的需求,而这一切,都必须基于一个强大的数据中心来完成。提升数据中心的效能,是提升用户满意度的关键要素。基于这种考虑,搜狐特别启动了搜狗新一代数据中心项目的建设,希望通过技术创新,提升搜狗的服务品质,从而赢得用户的青睐。
  “搜狐追求新技术应用是有传统的,搜狗引擎就是搜狐在搜索技术领域追求创新的一个结果。我们希望能利用各种领先的技术与设备,让我们的产品与服务为用户带来更好的感受。尤其对于搜狗数据中心,我们更希望规避传统数据中心的‘短板’,进一步提升数据中心网络的性能、效率与可靠性,让用户访问起来感觉更加良好。”搜狐网络运维部某负责人解释了采用新一代数据中心解决方案的初衷。
  此外,搜狐在数据中心网络建设上不断“求新”是形势使然,从2007年搜狐正式推出搜狗网页搜索3.0版本之后,搜狗搜索引擎的中文网页收录量已超过100亿,每天的网页更新量则有5亿之多,激增的海量数据对搜狗数据中心带来了前所未有的压力。新的搜狗业务应用要求数据中心网络平台能支撑百亿海量网页收录、及时更新网页和网页评级体系,满足高密度服务器集群的高性能并行抓取工作,同时网络系统要具备后期灵活的扩展能力。面对超高的网络流量与数量庞大的服务器集群,原有的搜狗数据中心网络架构与设备性能已无法满足这一要求,采用新一代数据中心架构来建设搜狗IDC新机房成为必然的选择。
  根据这一需求,2009年初,搜狐公司征集了业内多家厂商的设备,进行了全方位考察和比较。最终, H3C公司集S12508数据中心级核心交换机、S75E高端多业务路由交换机、S5800万兆交换机、iMC智能管理中心等软硬件设备为一体的统一交换架构数据中心解决方案获得了该项目的全部份额,搜狗新一代数据中心网络建设的大幕也由此拉开。
  
  让大流量不再是问题
  
  据记者了解,在搜狗数据中心网络体系中,部署了两台H3C S12500交换机作为整个网络的核心,同时,两台
  S75E高端多业务路由交换机承担起数据传输网的重任,而数十台S5800交换机则作为接入交换机,将2000多台服务器连成了一个大的网络。
  据H3C网络产品线副总裁孙德和介绍,S12500的设计瞄准的就是数据中心高密度、大流量和大缓存的特点,其单台设备容量已达到5.76T,而且能支持多达576个万兆端口,能够充分满足搜狗数据中心高密度万兆应用的需求,这也是传统的万兆交换机很难做到的一点。
  众所周知,网页搜索最重要的就是搜索速度与结果准确性,这也是搜狗引擎持续不断优化改进的目标,它依托的是系统在瞬间对海量网页数据进行挖掘、分析、显示的结果。在这一过程中,数据中心网络承担的带宽压力非常大。为了保证用户能够得到及时、准确的搜索结果,当搜狗引擎接收到一个网页搜索请求时,往往会向高密度服务器群同时发起检索需求,并在非常短的时间内接收几百台服务器几乎同时发回的搜索结果,巨大的数据流量如果不能及时吸收,那么很容易出现网络拥塞的现象。
  而S12500的大缓存能力很好地解决了这个问题,不仅每个端口拥有256M的大缓存能力,更重要的是它支持分布式缓存机制,当搜索数据浪涌到来时,一部分报文被缓存在接入交换机S5800的8M缓存中,另一些则缓存在S12500的更大缓存中,有效地利用了各级设备的端口缓存能力,最大限度地吸收突发流量,这样,就减少了丢包的可能性,尽可能地减少了对业务的影响。先期开展的实地测试结果表明,每次浪涌的收敛时间都控制在几十毫秒之内。
  搜狐网络运维部负责人表示,通过建设新一代数据中心网络,解决了搜索引擎业务普遍感到头疼的浪涌问题,对普通用户来说,意味着搜索结果中的死链接会更少。可以说,H3C S12500核心交换机起到了非常关键的作用。
  
  创新架构带来新价值
  
  在搜狗数据中心的网络架构中,数十台作为接入交换机的S5800并非是简单的并列关系,而是每四台虚拟成一台虚拟交换机,然后并列着接入核心交换机S125000。对此,该负责人解释道,这里采用的是H3C推出的IRF2(第二代智能弹性架构,Intelligent Resilient Framework 2)技术,这也正是搜狐最终选择H3C新一代数据中心解决方案来构建搜狗网络的另一个重要因素。
  智能弹性架构技术简单的说,是把多台物理设备互相连接起来,使其成为一台统一的逻辑设备。也就是说,用户可以将多台设备真正当作一台设备进行管理和使用,从而为用户带来简化管理、简化网络业务、弹性扩展、1∶N可靠、性能加倍提升和增值业务扩展等多方面的网络使用新体验。目前,H3C的众多网络设备都支持这一技术。
  在H3C提出的搜狗数据中心网络解决方案中,这一创新技术也在多处得以体现。上面提到的S5800堆叠就是其中之一。在实际应用中,四台S5800通过IRF2实现40G互联,然后10组S5800堆叠接入双机互备的S12500,也就是说,S12500只需要10个端口,就可实现40个万兆互联。这使得搜狗数据中心网络具有了良好的可扩展性,日后网络扩容时,可直接利用其他多余端口,而无须额外投资。
  两台核心交换机S12500双机互联同样采用了IRF2架构,它所带来的价值同样十分明显。以往搜狗数据中心网络采用的是传统的环路设计,这样有一半的网络带宽必须让道给环路,带宽利用率低,而且容易出现环路堵塞链路,在维护上也容易出现问题。采用IRF2技术则可以有效避免这些问题。现在的搜狗数据中心网络采用MSTP VRRP BFD的方式构建,去掉了令人烦恼的环路。这不仅意味着网络运维更为简单,不会出现环路故障,而且,也意味着整个网络在不增加投资的情况下,可利用的带宽相比以前增加了一倍。
  在搜狐对IRF2性能实际测试中,搜狐数据中心网络的稳定性表现得十分突出,无论是S12500内部双引擎的主备倒换,还是链路级的倒换,系统的恢复时间都小于30毫秒。也就是说,即使对网络连续性要求高达50毫秒的延迟敏感型应用,网络的稳定性也不会对业务造成不良影响,也有利于搜狗业务的进一步发展。
  “正是因为IRF2技术可以让整个网络的扩展性更好,而且ROI投资回报率更高,为搜狗业务的未来提供了坚实的基础,所以我们对H3C提出的解决方案更为满意。”该负责人表示。
  在数据中心应用领域,互联网企业由于其业务特点,一直走在应用的前列,他们的选择往往代表着市场的风向标。从实际效果来看,H3C新一代数据中心解决方案,不仅保障了搜狐现有业务的连续性,可满足搜狐不断增长的业务带宽需求,同时面向未来可以承载更多不断涌现的新业务。
其他文献
SAP公司中小企业业务开发部高级副总裁Robert Vetter(中)和英特尔数字企业事业部副总裁布莱沙兰帕利(左)联合为联想SureServer B300服务器颁发SAP Business All-in-One解决方案证书。  7月17日,SAP在上海向中国市场发布了SAP Business All-in-One快速启动版解决方案。值得注意的是,在解决方案发布会现场,作为SAP的全球合作伙伴和中
甫一问世,就刷新了30项基于双路服务器及工作站的基准性能测试记录。英特尔双路至强5500处理器究竟如何取得至强处理器史上最大幅度的性能提升?又将如何以其智能特性变革计算方式,进而改变整个数据中心?    “这将是英特尔今年最重要的一次发布,也是自PentiumPro以来,英特尔最重要的服务器处理器发布。” 3 月 31 日,英特尔全球副总裁、中国区总裁杨叙在双路至强5500系列处理器的发布仪式上表
当彭明盛抛出IBM的智慧地球理念时,新一代信息技术的作用无疑提升到了新的高度。它为智慧地球的实现创造了可能,能够更透彻地感知和度量,更全面地互联互通,更深入地智能化。随后IBM连续提出了智慧银行、智慧医疗、智慧交通、智慧城市……近日,IBM又发布了新的白皮书,智慧教育也浮出水面。    一个有着明显历史沿革的理念,却融入了全新的技术,这使得智慧教育的愿景最终有望真正落地。IBM全球教育产业副总裁M
HCP-78WX是日立新推出的一款投影机。在产品外观上,日立HCP-78WX与日立HCP-75X十分相像:同样为四四方方配合圆弧边角的外观设计,同样有274mm×205mm×59mm的外观尺寸,标称的重量也都是1.7kg,有着较好的便携性。在散热方面,日立HCP-78WX与日立HCP-75X同样都是前进风后出风的方式,将投影时自身内部产生的热量向投影机的后方发散。  在规格方面,日立HCP-78W
由于硬件平台的同质化不可避免,商用PC的角逐越来越多地成为易用性设计的角逐。今年4月,方正科技推出了文祥系列的新品E520,具备较高的性价比和较好的易用性。本次中国计算机报IT实验室收到的文祥E520样机采用了英特尔酷睿E5200处理器,从处理器的选择上也可以看出这款产品将以性价比作为主要卖点。另外,2GB内存、160GB硬盘的配置中规中距。    设计方面,方正标志性的顶部把手设计依然保留,可以
在IBM最新的“智慧的地球”理念中,实现“智慧企业”需要具备四大利器:新锐洞察、智慧运作、动态架构、绿色未来。其中,动态架构则是实现“智慧”的基础,也是截至目前IBM定义的基础架构演进的最高阶段。    动态架构从我做起    如今,企业迫切需要大幅提升系统效率与成本比,增强业务弹性,以应对国际金融危机。与此相违背的是,目前数据中心在能源和占地等方面的成本,自1996年以来已增长了8倍,服务器的平
每个公司都要面对各种挑战,而公司所做的每一项决定,却都蕴藏着提高效率、增强有效性和强化客户竞争力的机会。    业界领先的公司都有优秀的供应链以节约成本、缩短供货周期,使公司业绩取得更好的、持久的增长。在如今的经济环境下,持续改进供应链是必要的,但仅仅做到这一点还不够。不管主营业务是制造业、物流业还是零售业,公司都应该再做一些事情以更好地应对全球金融危机。    挑战    在严峻的经济形势下,即
在线办公软件市场似乎有了一些新动向,不再只是在个人级市场以免费形式默默地扩大用户量,更有一些海外政府机构和大型企业对成本低廉的在线办公服务逐渐产生兴趣,并采取了试水动作。  据报道,去年美国华盛顿市计算机网络管理中心与谷歌签定了价值近50万美元的服务合同,规定其使用由谷歌提供的Gmail电子邮件、电子数据表和文字处理软件。无独有偶,GE(通用电气)的一名匿名发言人之前透露,GE也开始使用了美国另一
一家堪称零售业巨头的公司,总部的数据库被人非法访问,窃取超过4560万份个人的信用卡、借记卡的信息;一家金融公司由于宕机,一小时损失30万欧元……类似这样的事情可以说时常发生在我们的生活中。这些教训应该使我们认识到:加强企业IT风险管理、加強IT治理和优化已迫在眉睫。企业需要一个端到端的业务不间断性计划,从评估一直到实施,为业务运行保驾护航。    IT治理面临的挑战    在中国经济强劲增长的背
全球金融危机下,独善其身者少之又少。而Sybase偏偏就交出了让人眼前一亮的答卷。就在Sybase刚刚发布的2008财年业绩中,其全年总收入11.30亿美元,同比增长10%;营业收入同比增长21%,净收入同比增长20%。  “或许很多人认为,我们的销售周期较长,所以还没在这次金融危机中体现出来。但真实的情况是,我们早在两三年前就开始进行布局,不仅仅依靠传统数据库业务,还培养了BI和移动商务这两个未