论文部分内容阅读
从最初替代劳动密集型的工程,到会说话的Siri和自动驾驶汽车,计算机正在变得越来越智能。如今,居然连写作都学会了,记者们大规模失业的那一天会很远吗??左言/文
在前一阶段热映的电影《超能陆战队》中,私人健康助理大白(Baymax)虏获了大批粉丝。除了讨人喜欢的呆萌外表,大白的技能也毫不逊色于蓝色的哆啦A梦—根据预先编制的程序,大白能对人体的健康状况做出精准的判断并给予及时的治疗。
现实生活中,大白的设定机器人健康助理是2014年美国最热门的创业方向:机器人和医疗健康领域。作为弱人工智能代表的大白,似乎离我们的日常生活并不太遥远。毕竟,工业革命之后的200多年时光中,机器已经取代人类完成了诸多工作,从最初简单地把人类从重复单调的劳动中解放出来,到利用大数据解决人类各种问题的人工智能。虽然就目前的技术水平而言,不少事情还是人类更加擅长,但并不妨碍机器人学习越来越多的新技能,并开始从事越来越多的新工种,譬如,听起来似乎不太可能由计算机来完成的:写作。
机器人码字知多少?
2015年1月的最后一天,在苹果公司发布创纪录的一季度财报数分钟之后,美联社即发表了题为《苹果打破华尔街一季度预期》的新闻报道。如果不仔细阅读文章下方的说明,读者很难意识到这篇没有署名的文章事实上是出自机器人记者之手。
这些机器人记者是美联社与致力于自动化写作的公司Automated Insights(以下简称“AI”)牵手合作的产物。自2014年年中开始,美联社使用AI公司的Wordsmith平台撰写财报快讯。最开始,每篇由计算机生成的文章都会经由人工编辑,纠正错误,同时这些错误也会被反馈至AI以便进行后续改进。10月起,完全没有人为干预的自动化写作程序正式启动,机器人记者正式上岗负责撰写业绩短评和快讯。
事实上,第一条完全由计算机程序生产的新闻报道产生于2014年3月美国加州4.7级地震时。作为首家“聘用”机器人记者的主流媒体,《洛杉矶时报(LA Times)》在地震发生后3分钟就发布了首条相关新闻。当时《洛杉矶时报》使用了一款名为Quakebot的软件程序,基于美国地质调查局(US Geological Survey)的数据,当该局发出级别在一定程度之上的预警后,此程序即自动提取数据,然后生成报道。报道完成后进入其内容管理系统,等候编辑的审阅和发布。
机器人的“写作”技能还不止于此,它们不仅可以充分满足媒体传播真实、及时的基本需求,而且还十分多产—对于以“码字”为生的记者和作家而言,谁都知道这一条有多可贵。
欧洲工商管理商学院(INSEAD)的管理学教授帕克(Philip M. Parker)所编写的一套算法系统已经成功写出了超过20万本书,其中不少都在亚马逊有售。而瑞典一名教师发明的计算机程序Lsjbot已经撰写了约270万条维基百科词条,占到了维基百科总量的8.5%。并不为人所熟知的是,早在2001年维基百科上线之时,就已经有了机器人的身影,且年产量在3万篇左右。当然,当时的机器人“写作”远未实现自动化。以介绍美国各小镇的短文为例,机器人直接从美国统计局抓取现成的数据,然后将之变成短小、固定的短语,随后由编辑接手,用历史介绍和旅游景点等各种内容串起这些短语,从而生成最后的词条。
“赋予数据生命”
与过去计算机“写作”停留在利用庞大文本库所进行的简单拼凑相比,如今的机器人记者显然已经智能了许多,支撑它们的是一套严谨的自然语言生成系统。除了与美联社合作的AI,另一家成立于2010年的公司Narrative Science(以下简称“NS”)同样致力于此领域。
如果说以Siri的语音识别技术是在信息输入上的一种突破,那么,AI和NS想要做的就是更加拟人化的“输出”,以文字的形式。AI表示自己公司的专长就是写作,“正如某人在自己的特长一栏里写上‘写作’一样”,NS则声称其计算机程序所撰写的文章无论叙述还是表达都与人类的作品难以区别。
不仅奋斗目标一致,两家公司最初的“实验田”均是体育报道。这些机器人记者不仅能基于比赛结果等信息第一时间撰写赛事快讯,还会对核心球员和精彩瞬间进行重点描述,而NS的程序设定还会自动生成标题并从图片库上挑选相应的球员照片作为配图。可以说,目前的技术水平已基本上实现了赛事报道的一键生成。
当然,不同的媒体有不同的行文套路和风格。因此,机器人记者的第一步就是大量“阅读”学习各家的不同风格,从而生成相应的模板,这个过程有点类似于《超能陆战队》中的大白在看到主人公因失去哥哥而意志消沉后,从电脑里下载了所有相关治疗程序。
在模板生成之后,自动化写作的第一步即是数据抓取。因此,在美联社与AI的合作中,还有专门负责处理数据的Zacks参与。接下来,AI依据一定的算法从中挑选有用的数据,并进行分析,找出其中的逻辑关系与趋势,并把它们纳入到更大的行业或社会、国家的背景中来解读其意义。随后就该轮到模板登场了,算法会按照重要性对各种可能的角度进行排序,并由此提炼观点,选择故事的“角度”,并形成文章的整体结构。剩下的工作就是生成文字,系统会用其自然语言生成功能对此前的分析和提炼得到的观点进行故事化叙述,并按照需要生成各种形式的文本。根据各家的需要,系统还会通过多种方式,将内容实时发布到指定的平台上。
从体育到财经,不难发现,二者的共通之处就在于都是需要大量数据支持的新闻报道,而这正是目前自动化写作应用最为广泛的领域。除了美联社和《洛杉矶时报》,福布斯、雅虎以及美式橄榄球联赛(NFL)等机构都已经开始“聘用”机器人撰写一些基于数据的简单报道。此外,还有一大批网络媒体享受着机器人记者高效便捷的服务,但却羞于对外发布自己的名字。 媒体并非机器人记者的唯一服务对象,始终围绕着数字运转的金融业是其另一大客户。NS的客户中就包括了万事达、德勤、瑞士信贷、美国投资公司普信集团(T. Rowe Price)以及金融集团USAA。这些机构都需要定期向投资人以及管理机构发送业绩报告,过去这样的报告通常需要一个专门的团队花费数十小时完成,而启用了自动化写作的服务之后,抓取数据、生成报告不过是几秒钟的事情。
此外,企业盈利分析报告、市场调研报告、销售趋势报告等固定模式的文本,机器人记者如今都可以轻松应对,而且其技能还逐渐向制造、零售、医疗和健康等存在大量数据分析的行业渗透。就连美国中央情报局下属分管投资的分支机构In-Q-Tel也使用了NS的服务—早在2013年4月,In-QTel就已经投资了NS。在2014年12月收获了新一轮1000万美元的融资之后,NS自创立以来的融资总额达到了3200万美元。而AI在筹集了上千万美元的资金后于2015年2月被管理资金规模达140亿美元的私募股权投资公司 Vista Equity Partners收购,并将整合AI与其早已全资拥有的数据内容生产商STATS的业务,充分挖掘大数据的价值,正如NS官网上的那句宣传口号,“赋予数据生命”。
抢记者饭碗?
直到被收购前,AI的员工也不到40人。但仅在2013年,其自动化写作系统就生产了3亿个故事,2014年这个数字超过了10亿,显然它们已经是全球最大的内容生产商。而美联社过去每个季度约发表300篇企业业绩快报,在与AI合作后则增加到了逾3000篇。不仅是产能大幅提升,计算机还能在短时间内处理大量数据,通常在上市公司业绩发布的数分钟内即可推出相关报道,比起人类的码字速度,优势十分突出。
NS合伙创立人、首席技术官汉默德(Kristian Hammond)早在两年前接受媒体采访时就曾表示:“机器人记者将于2017年拿下普利策新闻奖,到了2025年,由计算机生产的新闻报道比例将会高达九成。”当时,外界评论NS机器人记者的写作水平大约相当于一个美国八年级学生的。两年的习得,计算机的写作水平自然也是精进不少。
那么,问题来了,记者会因此而失业吗?
从美联社和《洛杉矶时报》的情况来看,没有人因为机器人记者的出现而被裁员。相反,由于计算机把记者从繁重的数据跟踪和计算中解脱了出来,并在第一时间提供有价值的新闻线索,记者可以把更多的时间用来进行深度报道,创作更多高质量的、有观点的干货。在美联社如今每季度发布的逾3000篇财务快讯中,约120篇会被加工成相对深度的报道。
毕竟,计算机既不会个性化的表达,也不会炼字锻句,既不能采访相关专家,更不能比较和判断话题的价值,它们所能做的只是凭借自身超强的记忆能力以及对数据的抓取和分析能力,发现数据之间的关联,用专业、易懂的语句将它们简单表述出来,仅此而已。正如同《超能陆战队》中的主人公打算替兄报仇时,需要重新给大白安装一个攻击性而非治疗性的程序。在弱人工智能模式下,设定者依然是人,计算机并不具备独立自主的思维,只能是模仿和学习。
但是,未来呢?在一个越来越由人工智能所定义的世界里,新闻的自动选编和精准推送都已经实现了,是否会有一个真正能自主推理和解决问题的强人工智能计算机出现,通过“计算机科学之父”和“人工智能之父”阿兰·图灵(Alan Mathison Turing)所设计的图灵测试?“一个会写作的机器人”甚至“一个会思考的机器人”,到底离我们还有多远呢?
在前一阶段热映的电影《超能陆战队》中,私人健康助理大白(Baymax)虏获了大批粉丝。除了讨人喜欢的呆萌外表,大白的技能也毫不逊色于蓝色的哆啦A梦—根据预先编制的程序,大白能对人体的健康状况做出精准的判断并给予及时的治疗。
现实生活中,大白的设定机器人健康助理是2014年美国最热门的创业方向:机器人和医疗健康领域。作为弱人工智能代表的大白,似乎离我们的日常生活并不太遥远。毕竟,工业革命之后的200多年时光中,机器已经取代人类完成了诸多工作,从最初简单地把人类从重复单调的劳动中解放出来,到利用大数据解决人类各种问题的人工智能。虽然就目前的技术水平而言,不少事情还是人类更加擅长,但并不妨碍机器人学习越来越多的新技能,并开始从事越来越多的新工种,譬如,听起来似乎不太可能由计算机来完成的:写作。
机器人码字知多少?
2015年1月的最后一天,在苹果公司发布创纪录的一季度财报数分钟之后,美联社即发表了题为《苹果打破华尔街一季度预期》的新闻报道。如果不仔细阅读文章下方的说明,读者很难意识到这篇没有署名的文章事实上是出自机器人记者之手。
这些机器人记者是美联社与致力于自动化写作的公司Automated Insights(以下简称“AI”)牵手合作的产物。自2014年年中开始,美联社使用AI公司的Wordsmith平台撰写财报快讯。最开始,每篇由计算机生成的文章都会经由人工编辑,纠正错误,同时这些错误也会被反馈至AI以便进行后续改进。10月起,完全没有人为干预的自动化写作程序正式启动,机器人记者正式上岗负责撰写业绩短评和快讯。
事实上,第一条完全由计算机程序生产的新闻报道产生于2014年3月美国加州4.7级地震时。作为首家“聘用”机器人记者的主流媒体,《洛杉矶时报(LA Times)》在地震发生后3分钟就发布了首条相关新闻。当时《洛杉矶时报》使用了一款名为Quakebot的软件程序,基于美国地质调查局(US Geological Survey)的数据,当该局发出级别在一定程度之上的预警后,此程序即自动提取数据,然后生成报道。报道完成后进入其内容管理系统,等候编辑的审阅和发布。
机器人的“写作”技能还不止于此,它们不仅可以充分满足媒体传播真实、及时的基本需求,而且还十分多产—对于以“码字”为生的记者和作家而言,谁都知道这一条有多可贵。
欧洲工商管理商学院(INSEAD)的管理学教授帕克(Philip M. Parker)所编写的一套算法系统已经成功写出了超过20万本书,其中不少都在亚马逊有售。而瑞典一名教师发明的计算机程序Lsjbot已经撰写了约270万条维基百科词条,占到了维基百科总量的8.5%。并不为人所熟知的是,早在2001年维基百科上线之时,就已经有了机器人的身影,且年产量在3万篇左右。当然,当时的机器人“写作”远未实现自动化。以介绍美国各小镇的短文为例,机器人直接从美国统计局抓取现成的数据,然后将之变成短小、固定的短语,随后由编辑接手,用历史介绍和旅游景点等各种内容串起这些短语,从而生成最后的词条。
“赋予数据生命”
与过去计算机“写作”停留在利用庞大文本库所进行的简单拼凑相比,如今的机器人记者显然已经智能了许多,支撑它们的是一套严谨的自然语言生成系统。除了与美联社合作的AI,另一家成立于2010年的公司Narrative Science(以下简称“NS”)同样致力于此领域。
如果说以Siri的语音识别技术是在信息输入上的一种突破,那么,AI和NS想要做的就是更加拟人化的“输出”,以文字的形式。AI表示自己公司的专长就是写作,“正如某人在自己的特长一栏里写上‘写作’一样”,NS则声称其计算机程序所撰写的文章无论叙述还是表达都与人类的作品难以区别。
不仅奋斗目标一致,两家公司最初的“实验田”均是体育报道。这些机器人记者不仅能基于比赛结果等信息第一时间撰写赛事快讯,还会对核心球员和精彩瞬间进行重点描述,而NS的程序设定还会自动生成标题并从图片库上挑选相应的球员照片作为配图。可以说,目前的技术水平已基本上实现了赛事报道的一键生成。
当然,不同的媒体有不同的行文套路和风格。因此,机器人记者的第一步就是大量“阅读”学习各家的不同风格,从而生成相应的模板,这个过程有点类似于《超能陆战队》中的大白在看到主人公因失去哥哥而意志消沉后,从电脑里下载了所有相关治疗程序。
在模板生成之后,自动化写作的第一步即是数据抓取。因此,在美联社与AI的合作中,还有专门负责处理数据的Zacks参与。接下来,AI依据一定的算法从中挑选有用的数据,并进行分析,找出其中的逻辑关系与趋势,并把它们纳入到更大的行业或社会、国家的背景中来解读其意义。随后就该轮到模板登场了,算法会按照重要性对各种可能的角度进行排序,并由此提炼观点,选择故事的“角度”,并形成文章的整体结构。剩下的工作就是生成文字,系统会用其自然语言生成功能对此前的分析和提炼得到的观点进行故事化叙述,并按照需要生成各种形式的文本。根据各家的需要,系统还会通过多种方式,将内容实时发布到指定的平台上。
从体育到财经,不难发现,二者的共通之处就在于都是需要大量数据支持的新闻报道,而这正是目前自动化写作应用最为广泛的领域。除了美联社和《洛杉矶时报》,福布斯、雅虎以及美式橄榄球联赛(NFL)等机构都已经开始“聘用”机器人撰写一些基于数据的简单报道。此外,还有一大批网络媒体享受着机器人记者高效便捷的服务,但却羞于对外发布自己的名字。 媒体并非机器人记者的唯一服务对象,始终围绕着数字运转的金融业是其另一大客户。NS的客户中就包括了万事达、德勤、瑞士信贷、美国投资公司普信集团(T. Rowe Price)以及金融集团USAA。这些机构都需要定期向投资人以及管理机构发送业绩报告,过去这样的报告通常需要一个专门的团队花费数十小时完成,而启用了自动化写作的服务之后,抓取数据、生成报告不过是几秒钟的事情。
此外,企业盈利分析报告、市场调研报告、销售趋势报告等固定模式的文本,机器人记者如今都可以轻松应对,而且其技能还逐渐向制造、零售、医疗和健康等存在大量数据分析的行业渗透。就连美国中央情报局下属分管投资的分支机构In-Q-Tel也使用了NS的服务—早在2013年4月,In-QTel就已经投资了NS。在2014年12月收获了新一轮1000万美元的融资之后,NS自创立以来的融资总额达到了3200万美元。而AI在筹集了上千万美元的资金后于2015年2月被管理资金规模达140亿美元的私募股权投资公司 Vista Equity Partners收购,并将整合AI与其早已全资拥有的数据内容生产商STATS的业务,充分挖掘大数据的价值,正如NS官网上的那句宣传口号,“赋予数据生命”。
抢记者饭碗?
直到被收购前,AI的员工也不到40人。但仅在2013年,其自动化写作系统就生产了3亿个故事,2014年这个数字超过了10亿,显然它们已经是全球最大的内容生产商。而美联社过去每个季度约发表300篇企业业绩快报,在与AI合作后则增加到了逾3000篇。不仅是产能大幅提升,计算机还能在短时间内处理大量数据,通常在上市公司业绩发布的数分钟内即可推出相关报道,比起人类的码字速度,优势十分突出。
NS合伙创立人、首席技术官汉默德(Kristian Hammond)早在两年前接受媒体采访时就曾表示:“机器人记者将于2017年拿下普利策新闻奖,到了2025年,由计算机生产的新闻报道比例将会高达九成。”当时,外界评论NS机器人记者的写作水平大约相当于一个美国八年级学生的。两年的习得,计算机的写作水平自然也是精进不少。
那么,问题来了,记者会因此而失业吗?
从美联社和《洛杉矶时报》的情况来看,没有人因为机器人记者的出现而被裁员。相反,由于计算机把记者从繁重的数据跟踪和计算中解脱了出来,并在第一时间提供有价值的新闻线索,记者可以把更多的时间用来进行深度报道,创作更多高质量的、有观点的干货。在美联社如今每季度发布的逾3000篇财务快讯中,约120篇会被加工成相对深度的报道。
毕竟,计算机既不会个性化的表达,也不会炼字锻句,既不能采访相关专家,更不能比较和判断话题的价值,它们所能做的只是凭借自身超强的记忆能力以及对数据的抓取和分析能力,发现数据之间的关联,用专业、易懂的语句将它们简单表述出来,仅此而已。正如同《超能陆战队》中的主人公打算替兄报仇时,需要重新给大白安装一个攻击性而非治疗性的程序。在弱人工智能模式下,设定者依然是人,计算机并不具备独立自主的思维,只能是模仿和学习。
但是,未来呢?在一个越来越由人工智能所定义的世界里,新闻的自动选编和精准推送都已经实现了,是否会有一个真正能自主推理和解决问题的强人工智能计算机出现,通过“计算机科学之父”和“人工智能之父”阿兰·图灵(Alan Mathison Turing)所设计的图灵测试?“一个会写作的机器人”甚至“一个会思考的机器人”,到底离我们还有多远呢?