论文部分内容阅读
2013年年底,深圳某区妇幼保健院妇产科门外,已经怀孕16周的小蓉和她的家人们在焦急地等待着基因测序孕检结果的最终报告。“度秒如年”,用这四个字形容他们的心情并不为过。即将拿出的那张薄薄的A4纸,将会决定着小蓉肚子里孩子的生死。
7月底,那时还不知道自己已经怀孕的小蓉不慎在牙齿治疗时接受了X光检查。而直到一周后,小蓉才发现,原来自己已经怀孕了:“当时一点兴奋的感觉都没有,感觉好慌张啊,不知道该怎么办。”在不断的自责中,小蓉和她的丈夫咨询了2名妇科医生,医生给出的建议是,“不建议要,有可能会畸形”。B超和抽血后的结果更让小蓉大吃一惊,“形态不规则且孕酮指数低”,这意味着,孩子可能已经流产。
小蓉回忆起当时的心情时说:“当时我一听,整个人都傻了,简直是晴天霹雳。”随后的唐氏筛查(一种孕检方法)结果也显示,小蓉的情况属于高风险。这时,小蓉已经怀孕13周。2个多月,小蓉一直是在惶惶不安中度过,她数度下定决心打掉孩子,但是又在丈夫的坚持下数度放弃。最终,小蓉抱着最后一丝希望,选择了基因测序。
相较于唐氏筛查的准确率以及羊水穿刺的风险性,作为一种新兴的孕检方法,基因测序以高准确性、基本趋近于零的风险性,得到了很多“准妈妈”们的欢迎。基因测序的结果给了小蓉希望:21、18、13三条染色体检查均为低风险。2014年3月,小蓉顺利生下了一个男孩。
今天,已经有越来越多的孕妇受益于基因测序,她们中有高龄产妇,有人是因为唐氏筛查出现问题。在网络上很多知名的母婴论坛中,经常会有人咨询基因测序的问题,也会有人主动将自己做基因测序的经验整理成“孕检攻略”。
在她们中间,很多人从来都没有听说过高性能计算(High Performance Computing)这个词,也可能永远不会知道,没有高性能计算,基因测序完全不可能实现。
与高性能计算亲密接触:从基因开始
2003年,《计算机世界》刊载了一篇名为《从人类基因测序开始》的文章,文章中重点介绍了如何利用高性能计算进行人类基因的测序工作。“每个人约有1万亿个细胞,每个细胞里面都有23对染色体,这些染色体中包含的DNA由ATCG不同碱基序列构成,数量共计达30亿,这些基因序列就是破解人类遗传信息奥秘的钥匙”,华大基因高性能计算研发主管王丙强博士向《计算机世界》记者表示,“基因测序工作就是要通过大规模的计算分析从海量的数据信息中辨识载有的基因及其序列,最终获取遗传信息。”
直白地说,基因就好像是人体的“元素周期表”,不同的基因,会在人体上反映出不同的属性、状态和个性。庞大的基因数据量,对于计算有着很大的需求。而随着信息技术的发展,高性能计算的处理能力呈现指数级的增长,这使得大范围基因测序的速度在逐渐加快,成本也不断降低。“做1KB的基因序列测序,2001年大概需要6000美元,现在大概只要10美分,降幅超过1万倍,这为商用创造了条件。” 王丙强博士表示。
从2012年开始,利用基因测序,针对育龄人群开展系列疾病的遗传检测及分析的临床实践开始展开。找出遗传病基因携带情况或特定疾病的遗传学病因,为孕前优生提供科学依据,成为其主要目的。小蓉就是这一科技成果的受益者。
不仅是在孕前检查发挥作用,实际上,成人也可以从基因检测中获益。2013年5月,好莱坞红星安吉丽娜·朱莉自曝已经接受预防性的双侧乳腺切除术,以降低罹癌风险。朱莉在给《纽约时报》的文章中写道,自己之所以做手术,是因为测试诊断结果显示她带有一个“缺陷”基因,名称是BRCA1,这大大增加了她患乳腺癌和卵巢癌的风险。从今年2月份开始直至4月27日,她的双侧乳腺已经全部切除。目前,她患乳腺癌的几率已经从87%下降到5%。
在武汉,有企业老总专门跑去医疗机构,去检测自己的酒量大小。一周后,其被检测报告认定为“善饮型”,仅比“浅尝型”高一个级别,离“畅饮型”、“豪饮型”还有很远。“他拿着这个报告说,今后在酒桌上就可以理直气壮地推辞了。”该企业人士笑着说。而根据相关行业从业者的说法,这些个人特点,很大程度上是由基因决定的,后天锻炼提升的空间十分有限。
实际上,高性能计算就是以这样潜移默化的方式,逐渐深入到我们的生活之中。很多时候,你并不知道,你的生活和工作已经与高性能计算扯上了关系。
计算社会
作为计算科学的一个分支,高性能计算,主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算机的技术。一直以来,高性能计算主要是以“科学计算”作为主要方向,应用于科学研究、航天国防、气象预报、石油勘探等。这些领域听上去非常神秘,但是实际上,其同普通人的关系也非比寻常。
当我们走进影院欣赏美丽悲壮的3D版《泰坦尼克号》、感人幽默的《冰雪奇缘》被逼真的画面所震撼时,背后都是高性能计算在默默支持。而通常评价动画作品好坏的直观感受就是精细度和渲染的效果,这也是动画制作技术中难度最高的部分。可是产业的发展和观众的需求使得动画制作团队必须做出最佳的视觉效果,因此现在越来越多的动画团队开始采用高性能计算设备以及类似工作站等产品来对动画的渲染效果进行制作和优化,所以看似很短的几个画面可能背后倾注了设计团队的很多精力。
业内有专家表示,高性能设备所采用的集成渲染技术与早期的单机渲染技术相比,就像是工业社会和小农经济之间的差距一样,这两种技术之间所达到的画面效果以及投资回报率也是差之千里。近几年,中国的动漫产业正在如火如荼的飞速发展,已经有很多硬件企业开始关注并支持动漫背后的技术产业链的发展。
其实,除了IT硬件厂商的支持外,国内文化产业政策也推出了很多扶持项目。中国传媒大学高性能计算中心就是项目之一。动画设计专业是中国传媒大学最具优势的专业之一。为了支持该专业的发展,他们搭建了先进的教育平台,利用目前英特尔最为先进的高性能计算技术,为该校的创意工作者提供了便利的创作工具。 “整个动漫电影生产过程是非常复杂的。一个大规模3D场景的搭建和渲染要花费很长的制作时间。设计师需要比较高端的工作站去设计场景和搭建模型,渲染后的作品呈现效果不好的话,要反复修改模型、重新花时间去渲染。此外,设计师很难实时追踪渲染的进度与状态。”中国传媒大学高性能计算中心的高鹏东博士如是描述国内动画渲染制作的现状与需求。通过高博士的介绍得知,他们采用基于英特尔至强E5平台的戴尔PowerEdge第12代服务器来应对计算方面的多种需求。测试结果显示,采用了该解决方案之后,整体的制作计算时间大幅缩短,性能提升超过30%。”
除了对计算能力的高要求,高博士还提到了他们对于高性能计算平台可管理性的重视:“高性能计算中心作为一个科研部门,不像大型企业有专人去维护IT的基础设施。在人手有限的前提下,我们要搭建起一个可以为全校师生服务的高效平台。这样大的工作量需要非常易于管理的平台支持。”曾有业内人士做过测算,如果制作一部三维动画的制作周期可以缩短三个月,那么动漫公司在成本上就可节省50%,因此技术对于艺术呈现的贡献已经变得越来越大。由此说来,一部动漫作品的成功,背后的硬件设备和硬件平台已经成为不可或缺的基石。
人脸识别是公认的模式识别难题,在过去几十年间,世界顶尖科研机构和科研人员一直在为计算机全自动人脸识别而努力。最近几年,随着理论发展和硬件计算能力的指数增长,人脸识别迎来了又一次研究热潮。香港中文大学教授汤晓鸥及其研究团队之前正式对外宣布,他们研发的DeepID人脸识别技术的准确率超过99%,比肉眼识别更加精准。
如果仅给出人脸的中心区域,肉眼在LFW上的识别率为97.52%。此前,该研究小组曾开发了一个基于高斯过程的人脸识别技术GaussianFace,得到98.52%的识别率。这也是计算机自动识别算法的识别率首次超过肉眼。DeepID将GaussianFace人脸识别纪录推进一步,首次超过99%的LFW识别率。
与此同时,Facebook发布了另一套基于深度学习的人脸识别算法DeepFace,在LFW上取得了97.35%的识别率。
香港中文大学与Facebook最大的区别就是,DeepFace需要740多万人脸数据作为训练,相比DeepID只需使用20万张人脸数据和数台NVIDIA K40 GPU,此外,研究组将深度学习作为团队的另一核心研究方向,设计包括人脸对准、行人检测、姿态估计、人体图像分割、车型识别、大规模人群监控、通用物体识别和检测、互联网图像检索等在内的,诸多深度学习模型,深度学习试图模仿人脑利用神经网络来感知外界。
目前人脸识别技术已广泛用于政府、军队、银行、社会福利保障、电子商务、安全防务等领域。未来,随着技术的进一步成熟和社会认同度的提高,人脸识别技术将应用在更多的领域。
在未来的某一天,当你突然想知道这个世界上有多少人跟你长得相似的时候,你可以在搜索框中上传一张自己的照片,剩下的一切都可以交给智能化的图片搜索引擎来完成,它能根据图片的内容特征自动识别相似的图片。这种“以图搜图”的情景说起来容易,但实现起来,却是一个困扰了谷歌、百度等各大搜索引擎巨头们许久的技术难题。
要知道,计算机本身并不能识别图像或文字,唯有将其转化为数字,计算机才能识别和处理。传统的图像检索技术是以文本检索技术为核心构建的,互联网上的图片被人为地打上各种各样的标签,如一张海上日出的风景照片,可能的标签包括“海洋、日出、风景”等,一旦有用户在搜索框中输入这些关键词后,搜索引擎会在数据库中自动查找相对应的标签。
然而,随着技术的进步,以人工智能为核心的内容图像检索技术已经成为未来发展的趋势。目前,谷歌通过提供数百万份 YouTube视频,成功地让虚拟神经网络系统DistBelief在事先没有获取“猫的特征描述”信息的情况下,自行总结出猫这个概念的特征。也就是说,DistBelief具有自学习能力。而在这套人工智能系统后面,是一个由1000台机器组成、包括1.6个内核、处理参数高达10亿个的超级计算机系统。
让机器像人一样理解图像内容,强大的硬件固然必不可少,可最核心的依然是智能算法的设计,目前基于聚类的方法是图像搜索领域的关键方法之一,其中K-means算法是应用最广泛的无监督聚类方法,海量数据的索引大部分都使用了分层聚类的思想。但是K-means算法效率相对比较低。针对K-means目前的特点,浪潮日前与国内某知名搜索公司实现合作,成功实现了对K-means算法的优化。在项目过程中,浪潮高性能计算并行团队在分析代码后,提出GPU集群的解决方案,并提出了从硬件(计算节点、网络互联、存储节点)到软件(优化软件)的一揽子解决方案。特别在软件方面,浪潮与客户算法专家团队共同成立专门联合项目组,基于K-means串行版本,完成GPU MPI集群版本的实现,节点内使用CPU GPU协同计算,大幅降低了计算时间。双方联合针对GPU架构进行了算法层面的优化,重写了计算部分代码,将整体速度大幅提升。某搜索引擎技术部的负责人在上线了浪潮优化后的搜索程序表示:“高性能计算的应用大幅降低了我们成本,并且节省了计算时间,为我们的应用上线带来了很大帮助。”
大数据,高性能计算的亲密伙伴
随着信息技术的的发展,近年来火热的大数据概念,也已经同高性能计算联系到了一起。中国计算机学会高性能计算专业委员会秘书长、中科院计算所研究员张云泉博士认为,大数据正在成为高性能计算的一个新的应用领域。在这个领域中,借助于大数据广泛的触角,新的应用层出不穷。
“利用大数据,已经有人在进行像股票分析及交易、智慧城市建设,甚至是世界杯比分预测这样的事情。”张云泉博士介绍说,“甚至于,一些高性能计算的传统应用都已经得到了新的突破。”他表示,实际上在大数据的概念诞生之前,高性能计算就已经在进行海量数据的处理,而在这一概念系统形成后,其对高性能计算又产生了新的影响。以石油勘探为例,受制于巨大的数据处理量,传统的一些精度很高的算法得不到很好的实现。而在大数据概念出现后,“我们可以重新考虑这些算法,从应用的视角来做决策。” 一个明显的案例来自于气象预报。在传统以科学计算为导向的高性能计算应用中,天气预报的结果是通过检测到的气象数值以及地理数据为依据进行计算的。而在今天,除了这些决策依据以外,大数据应用系统还可以汇总比对历史气象数值、云图位置,甚至于云的形状变化,通过对这些数据的统一计算匹配,高性能计算系统能够反馈更加准确的预报结果。
“可以说,大数据打开了高性能计算应用的盒子。”张云泉博士表示。
中国传媒大学高性能计算中心高鹏东博士将高性能计算的方向划分为“定性”和“定量”。其中,“定量”就是指大数据方面的应用。依托于大数据处理所带来的“量”,互联网企业可以将网民的上网行为进行记录,从而利用高性能计算分析用户、精准定位,改善自身的内容质量,同时量化指标,进行广告的精准投放。
高鹏东博士认为,之所以高性能计算会出现“定量”的方向,与应用需求有着很大关系。在大数据的应用模式下,原本以计算密集为主的高性能计算,开始进入“以量取胜”的数据密集时代。对于互联网企业来说,这样的模式改变,为其手中的大量数据找到了用武之地。
张云泉博士认为,在大数据应用越来越广泛的今天,高性能计算的评判指标有可能会发生相应的变化。未来,这将是一个综合性的考量,其组成不只是浮点计算能力,还包括了数据的吞吐、IO带宽等多方面要素。
从2010年开始,大数据的应用方向在高性能计算领域开始显现。在这几年中,国内云计算供应商浪潮也开始接触有类似需求的用户。“在我们的用户实践中,有80%应用于传统科学计算领域,有20%则开始进行一些与大数据相关的新兴应用的探索。”浪潮-英特尔中国并行计算联合实验室主任工程师张清表示。上文所提到的“以图搜图”,包括以及采用深度学习方法的语音识别、图像识别,就包含在这些新兴应用中。
未来,参加普通话或者英语口语考试的考生有可能会发现,其面对的不再是专家和老师,而是一台机器。通过大数据和高性能计算的结合,采用深度学习方法的语音识别系统将更加准确地判断考生的发音情况,并给出评分结果。这类需要大数据与高性能计算结合的应用将越来越多。
张清提到,目前高性能计算领域的人才相对比较匮乏。因此,包括浪潮在内,产业内外正在积极打造从高校到厂商,再到企业应用的生态圈。而在这个过程中,大数据概念给予了学生更多施展的空间。
王丙强博士在采访中也谈到了人才招聘的相关问题。他表示,目前高性能计算,特别是GPU相关计算的人才招聘还是存在一定困难,希望随着学校相关课程的开设,以及GPU应用的越来越广泛,这方面的人才也会越来越多。
如今的高性能计算,已不再是武器研究、石油勘探、生物信息、医疗等行业的专利,3D影片、DNA测序、内衣设计、汽车制造,这些与生活息息相关的事物,都已经开始使用高性能计算。通过对人体信息的收集分析,可以研发出最符合人体工程学的内衣产品。诸如此类的案例,已经屡见不鲜。可以说,高性能计算正给我们的生活带来前所未有的改变,它能使我们的工作更具效率,使我们的娱乐更加丰富多彩,亦或使我们更加了解自己、了解生命。
7月底,那时还不知道自己已经怀孕的小蓉不慎在牙齿治疗时接受了X光检查。而直到一周后,小蓉才发现,原来自己已经怀孕了:“当时一点兴奋的感觉都没有,感觉好慌张啊,不知道该怎么办。”在不断的自责中,小蓉和她的丈夫咨询了2名妇科医生,医生给出的建议是,“不建议要,有可能会畸形”。B超和抽血后的结果更让小蓉大吃一惊,“形态不规则且孕酮指数低”,这意味着,孩子可能已经流产。
小蓉回忆起当时的心情时说:“当时我一听,整个人都傻了,简直是晴天霹雳。”随后的唐氏筛查(一种孕检方法)结果也显示,小蓉的情况属于高风险。这时,小蓉已经怀孕13周。2个多月,小蓉一直是在惶惶不安中度过,她数度下定决心打掉孩子,但是又在丈夫的坚持下数度放弃。最终,小蓉抱着最后一丝希望,选择了基因测序。
相较于唐氏筛查的准确率以及羊水穿刺的风险性,作为一种新兴的孕检方法,基因测序以高准确性、基本趋近于零的风险性,得到了很多“准妈妈”们的欢迎。基因测序的结果给了小蓉希望:21、18、13三条染色体检查均为低风险。2014年3月,小蓉顺利生下了一个男孩。
今天,已经有越来越多的孕妇受益于基因测序,她们中有高龄产妇,有人是因为唐氏筛查出现问题。在网络上很多知名的母婴论坛中,经常会有人咨询基因测序的问题,也会有人主动将自己做基因测序的经验整理成“孕检攻略”。
在她们中间,很多人从来都没有听说过高性能计算(High Performance Computing)这个词,也可能永远不会知道,没有高性能计算,基因测序完全不可能实现。
与高性能计算亲密接触:从基因开始
2003年,《计算机世界》刊载了一篇名为《从人类基因测序开始》的文章,文章中重点介绍了如何利用高性能计算进行人类基因的测序工作。“每个人约有1万亿个细胞,每个细胞里面都有23对染色体,这些染色体中包含的DNA由ATCG不同碱基序列构成,数量共计达30亿,这些基因序列就是破解人类遗传信息奥秘的钥匙”,华大基因高性能计算研发主管王丙强博士向《计算机世界》记者表示,“基因测序工作就是要通过大规模的计算分析从海量的数据信息中辨识载有的基因及其序列,最终获取遗传信息。”
直白地说,基因就好像是人体的“元素周期表”,不同的基因,会在人体上反映出不同的属性、状态和个性。庞大的基因数据量,对于计算有着很大的需求。而随着信息技术的发展,高性能计算的处理能力呈现指数级的增长,这使得大范围基因测序的速度在逐渐加快,成本也不断降低。“做1KB的基因序列测序,2001年大概需要6000美元,现在大概只要10美分,降幅超过1万倍,这为商用创造了条件。” 王丙强博士表示。
从2012年开始,利用基因测序,针对育龄人群开展系列疾病的遗传检测及分析的临床实践开始展开。找出遗传病基因携带情况或特定疾病的遗传学病因,为孕前优生提供科学依据,成为其主要目的。小蓉就是这一科技成果的受益者。
不仅是在孕前检查发挥作用,实际上,成人也可以从基因检测中获益。2013年5月,好莱坞红星安吉丽娜·朱莉自曝已经接受预防性的双侧乳腺切除术,以降低罹癌风险。朱莉在给《纽约时报》的文章中写道,自己之所以做手术,是因为测试诊断结果显示她带有一个“缺陷”基因,名称是BRCA1,这大大增加了她患乳腺癌和卵巢癌的风险。从今年2月份开始直至4月27日,她的双侧乳腺已经全部切除。目前,她患乳腺癌的几率已经从87%下降到5%。
在武汉,有企业老总专门跑去医疗机构,去检测自己的酒量大小。一周后,其被检测报告认定为“善饮型”,仅比“浅尝型”高一个级别,离“畅饮型”、“豪饮型”还有很远。“他拿着这个报告说,今后在酒桌上就可以理直气壮地推辞了。”该企业人士笑着说。而根据相关行业从业者的说法,这些个人特点,很大程度上是由基因决定的,后天锻炼提升的空间十分有限。
实际上,高性能计算就是以这样潜移默化的方式,逐渐深入到我们的生活之中。很多时候,你并不知道,你的生活和工作已经与高性能计算扯上了关系。
计算社会
作为计算科学的一个分支,高性能计算,主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算机的技术。一直以来,高性能计算主要是以“科学计算”作为主要方向,应用于科学研究、航天国防、气象预报、石油勘探等。这些领域听上去非常神秘,但是实际上,其同普通人的关系也非比寻常。
当我们走进影院欣赏美丽悲壮的3D版《泰坦尼克号》、感人幽默的《冰雪奇缘》被逼真的画面所震撼时,背后都是高性能计算在默默支持。而通常评价动画作品好坏的直观感受就是精细度和渲染的效果,这也是动画制作技术中难度最高的部分。可是产业的发展和观众的需求使得动画制作团队必须做出最佳的视觉效果,因此现在越来越多的动画团队开始采用高性能计算设备以及类似工作站等产品来对动画的渲染效果进行制作和优化,所以看似很短的几个画面可能背后倾注了设计团队的很多精力。
业内有专家表示,高性能设备所采用的集成渲染技术与早期的单机渲染技术相比,就像是工业社会和小农经济之间的差距一样,这两种技术之间所达到的画面效果以及投资回报率也是差之千里。近几年,中国的动漫产业正在如火如荼的飞速发展,已经有很多硬件企业开始关注并支持动漫背后的技术产业链的发展。
其实,除了IT硬件厂商的支持外,国内文化产业政策也推出了很多扶持项目。中国传媒大学高性能计算中心就是项目之一。动画设计专业是中国传媒大学最具优势的专业之一。为了支持该专业的发展,他们搭建了先进的教育平台,利用目前英特尔最为先进的高性能计算技术,为该校的创意工作者提供了便利的创作工具。 “整个动漫电影生产过程是非常复杂的。一个大规模3D场景的搭建和渲染要花费很长的制作时间。设计师需要比较高端的工作站去设计场景和搭建模型,渲染后的作品呈现效果不好的话,要反复修改模型、重新花时间去渲染。此外,设计师很难实时追踪渲染的进度与状态。”中国传媒大学高性能计算中心的高鹏东博士如是描述国内动画渲染制作的现状与需求。通过高博士的介绍得知,他们采用基于英特尔至强E5平台的戴尔PowerEdge第12代服务器来应对计算方面的多种需求。测试结果显示,采用了该解决方案之后,整体的制作计算时间大幅缩短,性能提升超过30%。”
除了对计算能力的高要求,高博士还提到了他们对于高性能计算平台可管理性的重视:“高性能计算中心作为一个科研部门,不像大型企业有专人去维护IT的基础设施。在人手有限的前提下,我们要搭建起一个可以为全校师生服务的高效平台。这样大的工作量需要非常易于管理的平台支持。”曾有业内人士做过测算,如果制作一部三维动画的制作周期可以缩短三个月,那么动漫公司在成本上就可节省50%,因此技术对于艺术呈现的贡献已经变得越来越大。由此说来,一部动漫作品的成功,背后的硬件设备和硬件平台已经成为不可或缺的基石。
人脸识别是公认的模式识别难题,在过去几十年间,世界顶尖科研机构和科研人员一直在为计算机全自动人脸识别而努力。最近几年,随着理论发展和硬件计算能力的指数增长,人脸识别迎来了又一次研究热潮。香港中文大学教授汤晓鸥及其研究团队之前正式对外宣布,他们研发的DeepID人脸识别技术的准确率超过99%,比肉眼识别更加精准。
如果仅给出人脸的中心区域,肉眼在LFW上的识别率为97.52%。此前,该研究小组曾开发了一个基于高斯过程的人脸识别技术GaussianFace,得到98.52%的识别率。这也是计算机自动识别算法的识别率首次超过肉眼。DeepID将GaussianFace人脸识别纪录推进一步,首次超过99%的LFW识别率。
与此同时,Facebook发布了另一套基于深度学习的人脸识别算法DeepFace,在LFW上取得了97.35%的识别率。
香港中文大学与Facebook最大的区别就是,DeepFace需要740多万人脸数据作为训练,相比DeepID只需使用20万张人脸数据和数台NVIDIA K40 GPU,此外,研究组将深度学习作为团队的另一核心研究方向,设计包括人脸对准、行人检测、姿态估计、人体图像分割、车型识别、大规模人群监控、通用物体识别和检测、互联网图像检索等在内的,诸多深度学习模型,深度学习试图模仿人脑利用神经网络来感知外界。
目前人脸识别技术已广泛用于政府、军队、银行、社会福利保障、电子商务、安全防务等领域。未来,随着技术的进一步成熟和社会认同度的提高,人脸识别技术将应用在更多的领域。
在未来的某一天,当你突然想知道这个世界上有多少人跟你长得相似的时候,你可以在搜索框中上传一张自己的照片,剩下的一切都可以交给智能化的图片搜索引擎来完成,它能根据图片的内容特征自动识别相似的图片。这种“以图搜图”的情景说起来容易,但实现起来,却是一个困扰了谷歌、百度等各大搜索引擎巨头们许久的技术难题。
要知道,计算机本身并不能识别图像或文字,唯有将其转化为数字,计算机才能识别和处理。传统的图像检索技术是以文本检索技术为核心构建的,互联网上的图片被人为地打上各种各样的标签,如一张海上日出的风景照片,可能的标签包括“海洋、日出、风景”等,一旦有用户在搜索框中输入这些关键词后,搜索引擎会在数据库中自动查找相对应的标签。
然而,随着技术的进步,以人工智能为核心的内容图像检索技术已经成为未来发展的趋势。目前,谷歌通过提供数百万份 YouTube视频,成功地让虚拟神经网络系统DistBelief在事先没有获取“猫的特征描述”信息的情况下,自行总结出猫这个概念的特征。也就是说,DistBelief具有自学习能力。而在这套人工智能系统后面,是一个由1000台机器组成、包括1.6个内核、处理参数高达10亿个的超级计算机系统。
让机器像人一样理解图像内容,强大的硬件固然必不可少,可最核心的依然是智能算法的设计,目前基于聚类的方法是图像搜索领域的关键方法之一,其中K-means算法是应用最广泛的无监督聚类方法,海量数据的索引大部分都使用了分层聚类的思想。但是K-means算法效率相对比较低。针对K-means目前的特点,浪潮日前与国内某知名搜索公司实现合作,成功实现了对K-means算法的优化。在项目过程中,浪潮高性能计算并行团队在分析代码后,提出GPU集群的解决方案,并提出了从硬件(计算节点、网络互联、存储节点)到软件(优化软件)的一揽子解决方案。特别在软件方面,浪潮与客户算法专家团队共同成立专门联合项目组,基于K-means串行版本,完成GPU MPI集群版本的实现,节点内使用CPU GPU协同计算,大幅降低了计算时间。双方联合针对GPU架构进行了算法层面的优化,重写了计算部分代码,将整体速度大幅提升。某搜索引擎技术部的负责人在上线了浪潮优化后的搜索程序表示:“高性能计算的应用大幅降低了我们成本,并且节省了计算时间,为我们的应用上线带来了很大帮助。”
大数据,高性能计算的亲密伙伴
随着信息技术的的发展,近年来火热的大数据概念,也已经同高性能计算联系到了一起。中国计算机学会高性能计算专业委员会秘书长、中科院计算所研究员张云泉博士认为,大数据正在成为高性能计算的一个新的应用领域。在这个领域中,借助于大数据广泛的触角,新的应用层出不穷。
“利用大数据,已经有人在进行像股票分析及交易、智慧城市建设,甚至是世界杯比分预测这样的事情。”张云泉博士介绍说,“甚至于,一些高性能计算的传统应用都已经得到了新的突破。”他表示,实际上在大数据的概念诞生之前,高性能计算就已经在进行海量数据的处理,而在这一概念系统形成后,其对高性能计算又产生了新的影响。以石油勘探为例,受制于巨大的数据处理量,传统的一些精度很高的算法得不到很好的实现。而在大数据概念出现后,“我们可以重新考虑这些算法,从应用的视角来做决策。” 一个明显的案例来自于气象预报。在传统以科学计算为导向的高性能计算应用中,天气预报的结果是通过检测到的气象数值以及地理数据为依据进行计算的。而在今天,除了这些决策依据以外,大数据应用系统还可以汇总比对历史气象数值、云图位置,甚至于云的形状变化,通过对这些数据的统一计算匹配,高性能计算系统能够反馈更加准确的预报结果。
“可以说,大数据打开了高性能计算应用的盒子。”张云泉博士表示。
中国传媒大学高性能计算中心高鹏东博士将高性能计算的方向划分为“定性”和“定量”。其中,“定量”就是指大数据方面的应用。依托于大数据处理所带来的“量”,互联网企业可以将网民的上网行为进行记录,从而利用高性能计算分析用户、精准定位,改善自身的内容质量,同时量化指标,进行广告的精准投放。
高鹏东博士认为,之所以高性能计算会出现“定量”的方向,与应用需求有着很大关系。在大数据的应用模式下,原本以计算密集为主的高性能计算,开始进入“以量取胜”的数据密集时代。对于互联网企业来说,这样的模式改变,为其手中的大量数据找到了用武之地。
张云泉博士认为,在大数据应用越来越广泛的今天,高性能计算的评判指标有可能会发生相应的变化。未来,这将是一个综合性的考量,其组成不只是浮点计算能力,还包括了数据的吞吐、IO带宽等多方面要素。
从2010年开始,大数据的应用方向在高性能计算领域开始显现。在这几年中,国内云计算供应商浪潮也开始接触有类似需求的用户。“在我们的用户实践中,有80%应用于传统科学计算领域,有20%则开始进行一些与大数据相关的新兴应用的探索。”浪潮-英特尔中国并行计算联合实验室主任工程师张清表示。上文所提到的“以图搜图”,包括以及采用深度学习方法的语音识别、图像识别,就包含在这些新兴应用中。
未来,参加普通话或者英语口语考试的考生有可能会发现,其面对的不再是专家和老师,而是一台机器。通过大数据和高性能计算的结合,采用深度学习方法的语音识别系统将更加准确地判断考生的发音情况,并给出评分结果。这类需要大数据与高性能计算结合的应用将越来越多。
张清提到,目前高性能计算领域的人才相对比较匮乏。因此,包括浪潮在内,产业内外正在积极打造从高校到厂商,再到企业应用的生态圈。而在这个过程中,大数据概念给予了学生更多施展的空间。
王丙强博士在采访中也谈到了人才招聘的相关问题。他表示,目前高性能计算,特别是GPU相关计算的人才招聘还是存在一定困难,希望随着学校相关课程的开设,以及GPU应用的越来越广泛,这方面的人才也会越来越多。
如今的高性能计算,已不再是武器研究、石油勘探、生物信息、医疗等行业的专利,3D影片、DNA测序、内衣设计、汽车制造,这些与生活息息相关的事物,都已经开始使用高性能计算。通过对人体信息的收集分析,可以研发出最符合人体工程学的内衣产品。诸如此类的案例,已经屡见不鲜。可以说,高性能计算正给我们的生活带来前所未有的改变,它能使我们的工作更具效率,使我们的娱乐更加丰富多彩,亦或使我们更加了解自己、了解生命。