百度:面对海量数据的绿巨人

来源 :新经济导刊 | 被引量 : 0次 | 上传用户:songchanglei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  互联网时代是一个巨人涌现的时代,如果要对中国的互联网企业做一个严谨的判断,那么百度绝对可以说已经成长为一个巨人。百度的活力,既表现在其内部活力弥久的创新能力,也在于其对外界强大的渗透能力。作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB(1PB=1024TB)的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。过去10年,百度网页搜索库已从500万猛增到了500亿。
  百度新首页上线一年以来,已经累积用户1.2亿,增长速度达到400%。那么,面对如此巨大的数据处理量,百度是如何通过绿色高效数据中心在大数据时代应对节能环保的要求的呢?
  M1云数据中心:PUE第一如何取得?
  2013年4月,在云计算发展与政策论坛召开的第三次高端会议上,百度M1云数据中心以PUE(数据中心的能耗指标) 2012年平均PUE达1.37,近12个月平均PUE为1.36,最佳PUE达到1.18,取得了国内PUE第一的最佳成绩(PUE越接近1越好,业界的平均PUE为2.5)。该评估由工业和信息化部电信研究院联合国内的主流电信运营商、互联网服务提供商和设备制造商及有关科研院所共同发起,代表着国内数据中心评估工作的最高水平。那么,M1云数据中心的PUE值国内第一是如何取得的呢?
  M1云数据中心位于朝阳区酒仙桥北路9号,原建筑为北京松下彩管厂区301号建筑,后由北京捷通公司改建而成。在向记者展示的幻灯片中,可以看到M1云数据中心的主体结构:M1数据中心总面积为6320平米,一层面积为5370平米,包括机房及动力、配电等辅助区域;二层面积为878平米,包括办公用房;地下一层水泵房面积为72平米。
  百度云首席架构师林仕鼎说,百度云数据中心计算的主要技术领域涵盖了数据中心体系结构、存储、计算 、超大规模系统等。
  M1数据中心由厂房改造而成,在改造过程中,采用外墙保温技术,最大限度减少室内外温度传导。在机房平面布局时,设置环形走廊,将机房区域设置在建筑环廊内区,最大程度减少冷量损失;外沿为走廊区域,充分利用自然条件,减少空调开启时间,实现节能运行。
  在软件架构优化方面,百度M1数据中心,部署了百度自主开发的在线离线业务混布系统,以及自主研发的服务器流量调度系统,在大幅提高在线机器的利用率的同时,极大限度地降低业务为应对突发事件而预留的冗余服务器资源,大大提高了能效。
  在硬件方面,服务器的能耗是数据中心能耗的主要部分。M1数据中心采用了绿色节能部件定制、固态硬盘(SSD)应用、电源效率优化、主板改造、去除冗余、与IDC环境结合的风扇优化策略等多个手段,使单节点降低能耗25%,整个数据中心的计算及处理能力大幅提升。此外,数据中心还率先使用了ARM采用精简指令集(RISC)的解决方案,使每台服务器的CPU功耗降低到原来的十分之一。
  在针对另外一块主要的能耗——空调系统的改造中,M1数据中心采用高效的冷冻水空调系统,并结合一系列先进技术以提高制冷及空调系统能效。例如,采用水侧Freecooling系统设计,充分利用室外自然冷源,尽量减少冷水机组运行负荷和时间,大大降低了数据中心能耗。另外,M1数据中心项目中引入先进的气流优化设计手段,采用CFD (Computational Fluid Dynamics)辅助进行机房气流组织方案设计,优化机房设备布局、细部规格尺寸、参数设置和维护维修策略等。在市电供电架构方面,M1数据中心提出简化供电系统结构大胆构想,在国内首次大规模采用市电主供,冗余电源作备份的新型供电架构,UPS系统整体损耗降低近10%。
  自行设计,打造绿色之路
  目前,百度已经在多个领域展开了基于公共数据的搜索服务。2013年2月,国家药监局三大数据库向百度开放,包括具有18万余种国产和进口药品信息的药品数据库,6000余种非处方药(OTC)化学药品说明书范本及中药说明书范本的药品说明书范本数据库,以及经过认证的可向个人售药的网站的数据库信息。
  2013年4月末,百度知道推出了知识搜索服务,针对相关领域的关键词检索提供满足用户需求的特型展示,目前已上线的有口碑搜索、医疗搜索、答案聚合及数据图谱等功能,并同时覆盖到PC端与无线端。
  在百度已相继引入国家药监局、中国家电维修协会、中国航空协会、中国银行业协会、北京市卫生局等权威机构的核心数据后,2013年5月,全国组织机构代码管理中心又和百度公司达成战略合作,以便为社会提供安全、准确的搜索结果。网友在百度搜索“组织机构代码查询”可以进入专业核查工具,只要输入组织机构名称、代码、登记证号中的任意一项,就可以了解机构类型、地址、有效期、颁发单位等重要信息,迅速判断这家组织机构是否真实、可靠。
  那么,这些海量的数据,在云时代的背景下,百度如何通过有效的组织管理以及在设计理念上来实现几十座数据中心的节能呢?在走访中记者逐渐了解到,百度除了采用一系列节能的方法和技术,比如优化电源结构、引入变频技术,优化服务器的气流式冷水机组及使用CFD软件等方式来实现服务器技术的优化外,更通过一系列定制化、高效的部件方面的自我的创新来建立中国最节能高效的云计算数据中心。
  自建绿色高效数据中心
  “数据中心是百度业务的载体,它支撑着海量数据存储、云平台和搜索社区等,所以百度更加关注建设云数据中心,用云的核心驱动力来支撑业务规模发展。”百度公司技术委员会理事长陈尚义介绍说,“百度的单体十万台服务器的数据中心,PUE每降低0.1,一年就可为百度节省上千万的成本,所以,打造自我的绿色高效数据中心,在大数据时代将能很好应对节能环保、低碳的要求。”
  目前,面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。目前,计划投资47.08亿元的百度云计算(阳泉)中心已于2012年8月奠基,该项目预计2015年完工。建成后的百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量。2013年4月15日,成都市高新区与百度云签署协议,中国最大的云开发服务平台——“成都百度云开发者技术中心”正式入驻成都高新区移动互联网大厦。此外,南京、广州、天津的百度云数据中心也都在建设之中。   陈尚义介绍说,百度数据中心从设计之初就开始体现绿色节能的理念。在解决设备散热问题中,百度数据中心采用集中散热、集中供电、高效部件等方法来降低能耗;在解决服务器能耗问题中,采用SSD解决服务器的瓶颈,降低服务器数量等方式来节约服务器耗电量。此外,一些数据中心采取白天以商业业务为主、数据处理为辅,夜晚侧重数据处理为主的原则,来很好分配大数据量的工作时间,进而实现了节能高效。
  除了这些技术,百度最让人叹服的还有数量众多的“看家本领”,更显示其“自制”的能力。
  能力1:自制固态硬盘(SSD)。据估计,百度的数据中心存储了数百PB的数据,其日常的数据处理能力达到数十个PB。为了解决海量数据实时存储的巨大挑战,百度自行开发了SSD产品,其研发的SSD的性能比SATA SSD要好六倍,而且其成本只是它的10%。在南京的云计算数据中心也进行了大规模的行业内的固态硬盘(SSD)部署。
  能力2:自行设计10Gb TOR交换机。百度自2011年开始研究和开发TOR交换机的设计,并于2012年推出第一代10Gb的TOR交换机。通过使用自行设计的硬件和软件,设计制造模块,以及DAC(直接连接电缆),百度的10Gb TOR的成本只相当于同样的1GB TOR商业交换机。目前百度的10Gb TOR交换机能承载超过5000台的服务器,部署在其云计算数据中心里。
  能力3:定制机架服务器。百度正在与Facebook合作,促进和优化开源的机架服务器的探索,这也是中国自主设计机架服务器的开源项目。定制的机架式服务器解决了百度许多问题,如传统的主机托管数据中心空间和功率密度的限制,电缆的混乱和部署的效率低下,有助于提高智能化管理和资产精度。在南京的云计算数据中心,百度大规模部署了ARM服务器。据百度说,基于ARM的服务器使数据中心的总拥有成本(TCO)降低了25%,提高存储密度70%。百度已经获得开发基于ARM的服务器的10项专利。ARM服务器的应用,使南京的云计算数据中心能够降低服务器总体拥有成本的10%,业务高峰时运转效率提高近10倍。
  如今,百度已经成为中国最具价值的品牌之一,英国《金融时报》将百度列为“中国十大世界级品牌”。目前百度已经面向开发者全面开放了包括云存储、大数据智能和云计算在内的核心云能力,为开发者提供强大的技术运营支持与推广变现保障。作为互联网搜索的入口,百度承载着数亿网民检索需求,满足海量计算的数据中心规模将日益庞大。百度从软件架构、IT设备、数据管理效率等多方面入手,致力于绿色IT建设,将对产业链上下游的参与起到良好的示范和带动作用。
其他文献
解放思想,破除藩篱,资源共享,合作共赢,生态长江有许多文章可做  长江是中华民族的母亲河,她孕育了神奇的自然景观和博大精深的长江文明,造就了无数风流人物和文学佳作。  朝辞白帝彩云间,千里江陵一日还。两岸猿声啼不住,轻舟已过万重山。  大江东去,浪淘尽,千古风流人物。故垒西边,人道是:三国周郎赤壁。乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰。  李白和苏轼虽已远去,但他们歌咏长江的诗篇
电信部门是国家重要的战略性经济部门,其建立的物理网络资源保证政府、企业、各种组织和个人之间信息快速传递的基础,所以现在电信运营商所提供的通信服务在社会迈向信息化的进程中也扮演着重要角色,也正是由于电信运营商的服务,信息资源才变成了财富的媒介和手段。  对电信运营商来说,它们也是数据中心市场的中流砥柱。中国三大电信运营商分别是中国电信、中国移动和中国联通,目前这三大运营商占中国总体数据中心市场的份额
“过去的九年,九华白手起家,实现了从农业到产业的转变,农民到市民的转变,农村到城市的转变。”湘潭经开区党工委书记喻湘曾经这样概括九华发展的成果。在升级为国家级经开区后,党工委、管委会深刻认识园区发展规律以及九华发展实际,指明了九华经济升级版的目标、内涵和路径,把服务放在首位,创新社会管理和服务,营造美丽、和谐、宜居、宜业的幸福家园。  大额拆迁补偿,让九华3万余拆迁农民离开祖祖辈辈居住的民房走进了
我们正在进入一个“云时代”。  “云”就是计算机群。通过云端上的大规模的云计算数据中心,我们在云端的一头用个人电脑可以处理文档、存储资料、观看影片娱乐、进行即时通讯等;而另一端则是各种IT连接设备、实时数据流、面向服务的体系结构(SOA)的采用以及搜索、开放协作、社会网络和移动商务等Web2.0空前规模的应用联接。目前,云计算、社交网络、移动互联三大技术开始广泛影响到企业的运营模式和商业模式,我们
地球上的生命处在一个以水为中心的世界里。这个蓝色星球表面,有近71%的面积被水所覆盖,在这其中只有2.5%的水是淡水,而人类能取用的淡水仅占地球储水量的0.014%。更严重的是,这些水还面临着许多威胁:地表水污染、地下水污染、酸雨……专家们说,如果世界人口像预计的那样在2025年达到80多亿人,那么人类对水的需求量将增加40%,届时水资源将成为关乎人类生存的稀缺资源。  按照联合国的估计,到202
2月23日,由农民日报主办、永业集团独家支持的第五届“如何让农民富裕起来”座谈会在北京召开。研讨会围绕“创新农业经营体制,增强农村发展活力”这个主题,详细解读今年“一号
2013年7月18日,背负超过180亿美元债务的底特律成为美国历史上最大的申请破产的城市。作为国家汽车产业的故乡,
从T字型到哑铃型《新经济导刊》:“长江经济带”作为区域经济术语。这个概念在学界是否有清晰的界定?它在国家区域经济发展战略中又是如何演变的?陈耀:长江经济带的概念很早就被
当前,面对国内外严峻的经济形势和日益激烈的市场竞争,中国企业尤其是中小企业越来越认识到创新的重要性。但很多企业一提创新就希望惊天动地,进行历史性、革命性、颠覆性的大创新,纵览全球,有几个企业能够做得到呢?不仅寥寥无几,而且也不是一朝一夕能够推出来的。对经济转型和产业升级的中国来说,微创新的力量不可忽视。  如果说在工业时代,汽车、火车、飞机延长了人们的双腿,那么信息化社会,电脑、手机、互联网、移动
<正>俄罗斯油气资源非常丰富,年钻井量不断增长,油气装备市场需求强劲。俄罗斯石油天然气工业虽然经历了90年代巨大的动荡,但石油天然气装备行业仍在不断发展。随着近年来俄