论文部分内容阅读
林爽,清华大学计算机系大四学生,他的出现非常偶然。大背景是Google在去年第一次与中国内地的高校合作“云”计划就选择了清华大学。为了采访,我试探着在水木清华BBS的Google版上发了一个寻找参加该计划的学生的帖子,一天之后,我的站内邮箱里就收到了林爽的回信。
非常顺利,我与林爽在清华FIT大楼的实验室中见面了。他递过来一张据说在一家美国网站上花7美元就能印250张的、可以自己定制的名片,让我对这个外表沉稳的清华男生有点意外的感觉。
他很详细地跟我介绍了他参加“云计算学术合作计划”的始末,“我们大三的暑假有一个为期5周的小学期,对计算机系的学生来说,有4门课可以选,而到我们这届,又加了一门Google的MapReduce的编程课。不过我们当时不知道这是‘云’计划的合作,但事实上,‘云’计划最核心的技术就是MapReduce。”
MapReduce是Google的一项重要技术,它通过把数据分发给网络上的每个服务器来实现大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但现阶段而言,对许多开发人员来说,并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型,它让那些没有多少并行计算经验的开发人员也可以开发并行应用。在林爽看来,这就是MapReduce的价值所在。
“比如课程中有一个简单的实例,就是计算莎士比亚所有作品中一共出现过多少个词汇。如果不用MapReduce,编程就基本有两个思路,要么就是线性地把莎士比亚的42本著作都输入一台计算机里,每出现一个新的词汇,就把它加到词汇列表里,但是这样做会比较慢。要么程序员就要规定好几台机器怎么并行运作,每台机器的数据怎么合并起来,合并后重复的词汇怎么来去除等等问题,很麻烦。而如果用MapReduce,只需要两个函数就可以把所有工作搞定。”这只是个简单的例子,如果计算量更大,会有更出色的效果。
毫无疑问,MapRudece的出现,给程序员们扩展了新的思路。最早提出要与大学合作“云”的Google高级软件工程师克里斯托夫·比希利亚就告诉应聘Google的程序员说,要想在Google发展,就必须学会从更宽广、更宏观的角度来工作和思考。“Think Big是Google的一种理念”,林爽坦言说:“我是个Google fans,去年7月到11月就在Google做实习生,也受到很多Google理念的影响。在Google看来,所有的问题要往大了想,数据量小的时候看不出一些规律、趋势和优势,但是数据量大到难以想象的大时,我们的处理的结果就会出奇的好。”
Google大学合作项目负责人朱爱民对我说:“云计算学术合作计划希望能培养下一代掌握大规模数据处理和分布式计算的新型人才,帮助中国学生及研究人员采用新兴技术,在未来云计算环境下创造出更多实用的互联网规模应用程序。”
非常顺利,我与林爽在清华FIT大楼的实验室中见面了。他递过来一张据说在一家美国网站上花7美元就能印250张的、可以自己定制的名片,让我对这个外表沉稳的清华男生有点意外的感觉。
他很详细地跟我介绍了他参加“云计算学术合作计划”的始末,“我们大三的暑假有一个为期5周的小学期,对计算机系的学生来说,有4门课可以选,而到我们这届,又加了一门Google的MapReduce的编程课。不过我们当时不知道这是‘云’计划的合作,但事实上,‘云’计划最核心的技术就是MapReduce。”
MapReduce是Google的一项重要技术,它通过把数据分发给网络上的每个服务器来实现大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但现阶段而言,对许多开发人员来说,并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型,它让那些没有多少并行计算经验的开发人员也可以开发并行应用。在林爽看来,这就是MapReduce的价值所在。
“比如课程中有一个简单的实例,就是计算莎士比亚所有作品中一共出现过多少个词汇。如果不用MapReduce,编程就基本有两个思路,要么就是线性地把莎士比亚的42本著作都输入一台计算机里,每出现一个新的词汇,就把它加到词汇列表里,但是这样做会比较慢。要么程序员就要规定好几台机器怎么并行运作,每台机器的数据怎么合并起来,合并后重复的词汇怎么来去除等等问题,很麻烦。而如果用MapReduce,只需要两个函数就可以把所有工作搞定。”这只是个简单的例子,如果计算量更大,会有更出色的效果。
毫无疑问,MapRudece的出现,给程序员们扩展了新的思路。最早提出要与大学合作“云”的Google高级软件工程师克里斯托夫·比希利亚就告诉应聘Google的程序员说,要想在Google发展,就必须学会从更宽广、更宏观的角度来工作和思考。“Think Big是Google的一种理念”,林爽坦言说:“我是个Google fans,去年7月到11月就在Google做实习生,也受到很多Google理念的影响。在Google看来,所有的问题要往大了想,数据量小的时候看不出一些规律、趋势和优势,但是数据量大到难以想象的大时,我们的处理的结果就会出奇的好。”
Google大学合作项目负责人朱爱民对我说:“云计算学术合作计划希望能培养下一代掌握大规模数据处理和分布式计算的新型人才,帮助中国学生及研究人员采用新兴技术,在未来云计算环境下创造出更多实用的互联网规模应用程序。”