论文部分内容阅读
我的作业——只算英格兰籍球员进球的英超积分榜
听上去有些不可思议?是的,《纽约时报》发表了我的期末作业。
本学期,我选修了数据新闻学(Data Journalism),这门课程的期末作业就是让每个学生通过HTML/SCC/JavaScript代码来编写具有新闻价值的多媒体报道,且制作成网页。在网页中同学们需要通过各种各样的动画、互动图表等对新闻内容加以阐释。教授鼓励我们做自己喜欢的,具有新闻价值的领域。作为一个狂热的足球迷,我选择了足球来做,毕竟我在足球方面的知识还是比较丰富的。此外,很多体育报道都在用数据新闻学或者数据可视化的方式来呈现。因此,这在主观和客观上都是一个非常好的机会。
在本赛季的英超联赛中,假设只算上英格兰球员进球的话,整个联赛的收官积分榜将会是怎样?这是我此次作业的故事,也是我心中埋藏已久的一个很好玩、很奇怪的疑惑。为什么会想到这个切入点?
我本人是英格兰超级联赛的粉丝,对英超联赛十分关心。近年来,在英超联赛的二十个俱乐部中,那些常常能排在积分榜顶端的俱乐部,通常都是花非常大的价钱从国外购买外籍运动员的。购进高水平的运动员,整个联赛的水平和这些球队的成绩固然都提高了,但相对来说,在联赛里,自己的英格兰籍球员得到上场的机会就越来越少了。过去几年,有很多球迷或者足球评论人士在讨论,外来资本的涌入或者说整个英超联赛的资金运作对英格兰球员的发展到底是好还是不好?因为单看英格兰国家队在最近几届世界杯和欧洲杯上的实力和球员的表现,他们的成绩跟以前是没法比的,下滑得非常厉害。正因为有很多人在讨论这个问题,有这样的一个背景,我就想从一个非常巧妙的角度,即只算英格兰籍球员进球的英超积分榜,把这个问题给呈现出来。这样的一个观察角度可能说明问题,也可能不能说明问题(大量购入外籍球员与本土球员发展之间是否存在关联),这都取决于球迷自己的看法。
真正做起来,这个过程还是没那么容易的。为了能够制作新规则下(只算英格兰籍球员进球)的积分榜,我核查了300多场比赛中每一个进球球员的国籍。不厌其烦地手工录入数据制作出了700多行的Excel表单,(那些比较进阶水准的记者,会直接用一种计算机语言叫做R的直接从网页上把数据抓取下来,而不需要手动输入。我用的是一个比较费力的方法)利用数据透视表(Pivot Table)等功能计算出新旧两张球队积分榜及各类技术统计,并绘制衍生的互动图表对其中的一些关键数据加以分析。数据就绪后,我制作成了网页。在最后一节课的作品展示后,我的老师凯文?奎利(Kevin Quealy)在学院里叫住我说:“关于你的期末作业,我们得谈一下。我的报纸也许想要发表。”他是《纽约时报》的制图编辑(Graphics Editor)。接下来的事情就一切很顺利了。我在纽约时报网站上的这篇文章,登了一个积分榜,这个积分榜是互动的,你把鼠标点上去,他会有相应的互动效果。我做的作业除了积分榜之外,还有两张图表,他们只用了我这个积分榜。
技术控?不需要!
很多人听到数据新闻学、数据可视化都会说,这个东西可能需要很高的技术含量吧。但实际上,并不是这样。我们老师一直告诉我们:只要你有好的想法,且它是跟数据有关的,你不需要非做什么大数据处理,也不需要非得下载几千行的数据表单。你不需要弄那么大的仗势,只要你有一个很好的想法,你可以用一个很简单的数据方式去呈现。数据新闻学的初衷是给读者一个更加直观的方式去呈现数据,去解读数据。如果只用一个积分榜表单的形式就可以把我的故事讲得非常完整清晰的话,那就用积分榜;如果互动图表能够讲得更加清楚,能够让读者更明白,或者说能让我的报道增加深度的话,那我可以选择再加一张图表。这些其实都是根据我的需求在改变的,并不是说我做任何东西,把它做得越花哨越好。往往你的图表做得越花哨,恰恰越难做到直观清晰。
做这样的一个作业,从头到尾涉及到了很多种工具,像Excel和网页设计的各种语言,其中还有一些是数据可视化的专用工具。虽然大部分的工具都是在这个课程中学到的,但上这门课的最大的好处并不在此,而是教给同学们从一个数据新闻记者的角度去做新闻。培养我们在做数据新闻报道时,有一个概念,知道自己要在哪里使用哪些工具,一步一步的流程是怎样的。因为即使你之前会这些工具或者知道这些工具的某些功能,但你并不知道他们能够整合起来做你的数据新闻,并不知道何时它们应该出现,派上用场。我们的两位教授都是《纽约时报》的制图编辑,作为业内比较优秀的数据新闻学的前辈,他们会从一个能比较快速上手的角度来告诉我们怎么样做数据新闻,必须要有哪些思维过程。
你只需一个绝妙的想法
不管是做数据新闻还是在整个新闻学领域,一个绝妙的想法是可以使你脱颖而出的。
在美国,大部分数据政府都是公开的,你在网上都可以查到。这些数据里包括各种各样细枝末节的数据,比如说纽约曼哈顿有一个一个的街区,在网上你可以查到不同街区出生的婴儿都叫什么名字。你会不会有这样的一个想法,去看看每个街区的父母给孩子取名时,出现频率最高的前5个名字分别是什么?这个东西可视化做出来的话,可以做成一个地图,读者鼠标点在地图上的某个街区,然后就可以弹出相应的起名频率较高的前5名,然后不同的街区可以相互比较,看看背后是不是有什么文化现象,读者会觉得这样的报道很有意思的。每个记者都可以拿到这些数据,但是并不是每一个记者都可以想到这么做的。
我有一个同学,他是马来西亚的一个记者,做马来西亚国内的政治报道很多年。他最近做了一个数据可视化的报道,他把马来西亚政府采购清单从网上,通过R语言抓取下来,他把政府从哪些公司采购了哪些东西做成可视化的图表。不同政府部门从不同公司采购的资金数据就呈现出来。单看几百页的数据你并不知道其中的规律和隐藏的现象,可一旦你把这些数据可视化分析,就可以看到是不是有大量订单流向了同一家公司。然后在网上做调查,也许会发现公司背后是有国家背景,或者公司注册人跟政府高官或者领导人有千丝万缕的联系。像这样从数据中把新闻挖出来的话就是有价值的,在课堂上老师就重点培养我们这种数据意识。
每节课上,老师会请学生(两个一组)在网上找出美国新闻行业里做数据可视化的一些作品,带到课堂上来,让学生做一个评点。让学生说这个作品他觉得哪方面好,哪方面不好;哪方面觉得可以提高;哪方面是从人性化出发,但应用型角度来讲是不好的,这些都可以提。很大程度上老师是鼓励我们从想法、构思的角度,或者从数据敏感度的角度去做评点。
有一次我们评点《卫报》做的一个数据可视化的作品。它做的是2011年的夏天,英国国内发生了一起影响遍及全国的骚乱。在这场骚乱中有很多谣言产生,比如说“伦敦眼”着火了、动物园老虎出来咬人了等很奇怪的说法。很多人就会在Twitter上把这些东西发出来,然后又被其他人转发。《卫报》从数据新闻学的角度做了一个网页,它把谣言在Twitter上传播的过程通过动画的形式演示出来。你会看到它开始是很小的一个点,这个小点就代表一条谣言,然后随着时间的推移,这个点就会越来越大,表示谣言的传播越来越快,而这些小的点就是代表转发。你可以操控这个时间轴,看清楚从某一个谣言诞生到在互联网上不断传播的路径。
我们评点这个作品时,并不是从技术角度(这个东西做出来非常难,需要很高技术)来点评,我们质疑他们做这个报道的样本数量不够。他们到底采集了多少条谣言微博?最后发现他们只取了几个比较有代表性的微博,而互联网谣言传播的情况可能并没有那么严重。因此,我们就质疑说他们做这个东西是不科学的,是不规范的。然后我们继续讨论,如果要提高的话,我们可以怎么做。
听上去有些不可思议?是的,《纽约时报》发表了我的期末作业。
本学期,我选修了数据新闻学(Data Journalism),这门课程的期末作业就是让每个学生通过HTML/SCC/JavaScript代码来编写具有新闻价值的多媒体报道,且制作成网页。在网页中同学们需要通过各种各样的动画、互动图表等对新闻内容加以阐释。教授鼓励我们做自己喜欢的,具有新闻价值的领域。作为一个狂热的足球迷,我选择了足球来做,毕竟我在足球方面的知识还是比较丰富的。此外,很多体育报道都在用数据新闻学或者数据可视化的方式来呈现。因此,这在主观和客观上都是一个非常好的机会。
在本赛季的英超联赛中,假设只算上英格兰球员进球的话,整个联赛的收官积分榜将会是怎样?这是我此次作业的故事,也是我心中埋藏已久的一个很好玩、很奇怪的疑惑。为什么会想到这个切入点?
我本人是英格兰超级联赛的粉丝,对英超联赛十分关心。近年来,在英超联赛的二十个俱乐部中,那些常常能排在积分榜顶端的俱乐部,通常都是花非常大的价钱从国外购买外籍运动员的。购进高水平的运动员,整个联赛的水平和这些球队的成绩固然都提高了,但相对来说,在联赛里,自己的英格兰籍球员得到上场的机会就越来越少了。过去几年,有很多球迷或者足球评论人士在讨论,外来资本的涌入或者说整个英超联赛的资金运作对英格兰球员的发展到底是好还是不好?因为单看英格兰国家队在最近几届世界杯和欧洲杯上的实力和球员的表现,他们的成绩跟以前是没法比的,下滑得非常厉害。正因为有很多人在讨论这个问题,有这样的一个背景,我就想从一个非常巧妙的角度,即只算英格兰籍球员进球的英超积分榜,把这个问题给呈现出来。这样的一个观察角度可能说明问题,也可能不能说明问题(大量购入外籍球员与本土球员发展之间是否存在关联),这都取决于球迷自己的看法。
真正做起来,这个过程还是没那么容易的。为了能够制作新规则下(只算英格兰籍球员进球)的积分榜,我核查了300多场比赛中每一个进球球员的国籍。不厌其烦地手工录入数据制作出了700多行的Excel表单,(那些比较进阶水准的记者,会直接用一种计算机语言叫做R的直接从网页上把数据抓取下来,而不需要手动输入。我用的是一个比较费力的方法)利用数据透视表(Pivot Table)等功能计算出新旧两张球队积分榜及各类技术统计,并绘制衍生的互动图表对其中的一些关键数据加以分析。数据就绪后,我制作成了网页。在最后一节课的作品展示后,我的老师凯文?奎利(Kevin Quealy)在学院里叫住我说:“关于你的期末作业,我们得谈一下。我的报纸也许想要发表。”他是《纽约时报》的制图编辑(Graphics Editor)。接下来的事情就一切很顺利了。我在纽约时报网站上的这篇文章,登了一个积分榜,这个积分榜是互动的,你把鼠标点上去,他会有相应的互动效果。我做的作业除了积分榜之外,还有两张图表,他们只用了我这个积分榜。
技术控?不需要!
很多人听到数据新闻学、数据可视化都会说,这个东西可能需要很高的技术含量吧。但实际上,并不是这样。我们老师一直告诉我们:只要你有好的想法,且它是跟数据有关的,你不需要非做什么大数据处理,也不需要非得下载几千行的数据表单。你不需要弄那么大的仗势,只要你有一个很好的想法,你可以用一个很简单的数据方式去呈现。数据新闻学的初衷是给读者一个更加直观的方式去呈现数据,去解读数据。如果只用一个积分榜表单的形式就可以把我的故事讲得非常完整清晰的话,那就用积分榜;如果互动图表能够讲得更加清楚,能够让读者更明白,或者说能让我的报道增加深度的话,那我可以选择再加一张图表。这些其实都是根据我的需求在改变的,并不是说我做任何东西,把它做得越花哨越好。往往你的图表做得越花哨,恰恰越难做到直观清晰。
做这样的一个作业,从头到尾涉及到了很多种工具,像Excel和网页设计的各种语言,其中还有一些是数据可视化的专用工具。虽然大部分的工具都是在这个课程中学到的,但上这门课的最大的好处并不在此,而是教给同学们从一个数据新闻记者的角度去做新闻。培养我们在做数据新闻报道时,有一个概念,知道自己要在哪里使用哪些工具,一步一步的流程是怎样的。因为即使你之前会这些工具或者知道这些工具的某些功能,但你并不知道他们能够整合起来做你的数据新闻,并不知道何时它们应该出现,派上用场。我们的两位教授都是《纽约时报》的制图编辑,作为业内比较优秀的数据新闻学的前辈,他们会从一个能比较快速上手的角度来告诉我们怎么样做数据新闻,必须要有哪些思维过程。
你只需一个绝妙的想法
不管是做数据新闻还是在整个新闻学领域,一个绝妙的想法是可以使你脱颖而出的。
在美国,大部分数据政府都是公开的,你在网上都可以查到。这些数据里包括各种各样细枝末节的数据,比如说纽约曼哈顿有一个一个的街区,在网上你可以查到不同街区出生的婴儿都叫什么名字。你会不会有这样的一个想法,去看看每个街区的父母给孩子取名时,出现频率最高的前5个名字分别是什么?这个东西可视化做出来的话,可以做成一个地图,读者鼠标点在地图上的某个街区,然后就可以弹出相应的起名频率较高的前5名,然后不同的街区可以相互比较,看看背后是不是有什么文化现象,读者会觉得这样的报道很有意思的。每个记者都可以拿到这些数据,但是并不是每一个记者都可以想到这么做的。
我有一个同学,他是马来西亚的一个记者,做马来西亚国内的政治报道很多年。他最近做了一个数据可视化的报道,他把马来西亚政府采购清单从网上,通过R语言抓取下来,他把政府从哪些公司采购了哪些东西做成可视化的图表。不同政府部门从不同公司采购的资金数据就呈现出来。单看几百页的数据你并不知道其中的规律和隐藏的现象,可一旦你把这些数据可视化分析,就可以看到是不是有大量订单流向了同一家公司。然后在网上做调查,也许会发现公司背后是有国家背景,或者公司注册人跟政府高官或者领导人有千丝万缕的联系。像这样从数据中把新闻挖出来的话就是有价值的,在课堂上老师就重点培养我们这种数据意识。
每节课上,老师会请学生(两个一组)在网上找出美国新闻行业里做数据可视化的一些作品,带到课堂上来,让学生做一个评点。让学生说这个作品他觉得哪方面好,哪方面不好;哪方面觉得可以提高;哪方面是从人性化出发,但应用型角度来讲是不好的,这些都可以提。很大程度上老师是鼓励我们从想法、构思的角度,或者从数据敏感度的角度去做评点。
有一次我们评点《卫报》做的一个数据可视化的作品。它做的是2011年的夏天,英国国内发生了一起影响遍及全国的骚乱。在这场骚乱中有很多谣言产生,比如说“伦敦眼”着火了、动物园老虎出来咬人了等很奇怪的说法。很多人就会在Twitter上把这些东西发出来,然后又被其他人转发。《卫报》从数据新闻学的角度做了一个网页,它把谣言在Twitter上传播的过程通过动画的形式演示出来。你会看到它开始是很小的一个点,这个小点就代表一条谣言,然后随着时间的推移,这个点就会越来越大,表示谣言的传播越来越快,而这些小的点就是代表转发。你可以操控这个时间轴,看清楚从某一个谣言诞生到在互联网上不断传播的路径。
我们评点这个作品时,并不是从技术角度(这个东西做出来非常难,需要很高技术)来点评,我们质疑他们做这个报道的样本数量不够。他们到底采集了多少条谣言微博?最后发现他们只取了几个比较有代表性的微博,而互联网谣言传播的情况可能并没有那么严重。因此,我们就质疑说他们做这个东西是不科学的,是不规范的。然后我们继续讨论,如果要提高的话,我们可以怎么做。