论文部分内容阅读
摘要:近年来,人工智能技术(AI)席卷全球,在无数行业形成了推翻性革新升级的局面,很多人称人工智能时代为第四次工业革命。在我们为这样一个指数增长时代欣喜的同时,应当意识到播音主持行业正面临着第五次行业危机。本文重点分析人工智能时代虚拟主播、主持人在传媒行业中的优势,基于此,对人工智能时代播音主持专业人才培养方式提出策略建议。
关键词:人工智能;语音合成;播音主持;人才培养
人工智能时代的来临势如破竹,它的普及悄然改变着播音主持行业的发展格局。与新技术同期而至的新变化也给播音主持专业人才的发展带来了史无前例的挑战。2018年11月7日在中国乌镇举办的第五届世界互联网大会上,新华社联合搜狗隆重推出全球首位合成新闻主播——“AI合成主播”。我们在享受它带来的便利的同時,必须掌握人工智能技术衍生物的优势,才能做到知己知彼、取长补短,探索新时代播音主持专业人才培养的全新路径。
(一)“文转音”式工作:人力、物力成本骤减
在2018年5月21日召开的微软2018人工智能大会上,一款名为小冰的人工智能伴侣虚拟机器人大放异彩,她开放了“全双工”和“人工智能创意”功能。家长可以为孩子设定故事的主人公、故事倾向等内容,小冰只需花费20秒时间就可以为用户定制(语音合成)一集10分钟左右的有声童话故事,而这项工作往往需要花费一名成熟的、采编播一体的主持人8个小时左右的工作时间。
由此看来,语音合成技术的成熟使得一篇文稿转化为音频的时间成本、人力成本、物力成本大幅降低。现在某些平台的语音合成音甚至完全可以取代播音员录制的音频,且受到用户认可。例如我们常用的地图类App,它的语音导航功能在经历最初1.0版本的电子音直至今天n.0版本的人声合成音的导航音已被用户广泛接受,除了我们熟悉的司机们会常常用到语音导航规划路径,国内、国外的街头巷尾,游客们开着语音导航指引自己前往目标地游览,外卖员们也因它实现了送餐效率的提升,在增添便利性的同时又将成本降到最低,语音合成技术已经深入我们每个人的生活之中。
(二)大幅提升工作效率
以人工智能语音合成现阶段技术来看,虽然小冰前期需要大量真人真声的录制工作,但是录制的声音一旦训练完成,小冰的工作效率将非常惊人且稳定,她可以全天24小时不间断地在任何一台智能手机上工作,每20秒完成一位成熟主持人8小时的工作内容,大大提升了音频产出的效率和稳定性。
稳定的工作效率是播音主持行业招聘人才非常重要的一点,正因如此,小冰也获得了很多播音主持职场新人不可多得的机会:2015年12月,小冰作为东方卫视《看东方》的实习“主持人”播报每日的天气;2017年7月,小冰搭档张绍刚登上荧幕主持中国首档原创科技秀《我是未来》。对于电视台、报社来说,小冰的出现不单单是降低了节目的成本,还大大增加了节目录制的可控性,除了技术升级之外,小冰不会因病假、事假影响节目录制、新闻撰写等工作,工作稳定性无人能及。
(三)加强节目情感控制能力
很多业界人士认为,语音合成技术离受众的生活还比较遥远,虽然机器可以模仿人类的声音、节奏,但很难模仿人类的表现力、自然度和情感度。事实上,这也是目前人工智能语音合成技术的瓶颈所在——在建模手段上还存在技术瓶颈,比如情感既具有实时变化性又具有长期记忆性,对于特征信号检测与处理尺度的把握都造成困难,在这些方面人工智能确实有很多技术难关需要攻克,但是不可否认的是,单从技术的角度来讲,在一段足够长的时间之后这一难题终将被解决——期刊《计算机工程》上刊登的论文《基于PSOLA与DCT的情感语音合成方法》中提出一种“结合和离散余弦变换的情感语音合成方法,实验结果表明, 该方法比单独使用时域基音同步叠加算法合成的情感语音更具情感色彩,其主观情感的识别率更高,合成的情感语音质量更好”。就最近配音演员李立宏的声音作为录音训练范本这个案例来说,他被录入的人工语音成功训练、合成之后,在情感度和自然度上已经有了很大提升,比我们现在听到的高德地图上合成的语音已经进步太多,因此,解决痛点缺乏的只是时间而已。
就笔者目前了解的情况来看,语音合成的可控性体现在两个方面。一方面,它在受众对音色的偏好上有很强的可控性,如今越来越多的“听书”产品深入受众的生活,用户可以选择自己喜欢的声音,如大气磁性康辉版、舌尖上的中国李立宏版等。甚至在技术成熟的未来,你可以训练自己喜欢的任何声音,为自己私人订制一种音色,再选取自己喜欢的书籍、信息来进行播读,这将会给用户体验带来极强的自由度。另一方面,语音合成在情感度上的控制能力极强。它能将声音角色的情感度降至冰点,进行零度写作,例如在2017年5月,小冰作为《异想天开》的主持人利用大数据为投资者和创业人分析出匹配度;不久之后,她还化身“助理主持人”登录《非你莫属》,为求职者们助力。因此,在某些需要在情感度上做出控制的角色身上,为了公平起见,需要以平等的感情面对每一位对象,只有依靠语音合成极强的可控性才能做到相对的客观平等。
(一)新版“一专多能”
2008年高校播音主持专业在人才培养改革方兴未艾之时兴起“一专多能”,“一专”指的是播音主持的基本功——播音,而“多能”是指节目的采编能力,采编播一体是那个时代对播音主持学生的培养目标。
如今,在媒介融合的大背景下,为了跟上新时代受众的需求,高校对播音主持专业人才的培养方式也在不断演变,播音主持专业对人才的培养应走向新的“一专多能”,使学生能根据自身喜好、特长引入跨学科学习交叉领域的相关知识。简而言之,“一专”改为采编播能力,而“多能”则指将方向指向了“复合型人才”,播音主持专业人才应结合自身喜好跨学科修习其他专业的相关科目,例如体育、科技、财经、法律等,这样的新型人才培养方式将有效提升学生们的学习能力。
新版“一专多能”的人才培养模式不仅可以应对科技浪潮带来的危机,提升未来播音主持行业在细分领域的专业性,还可以有效提升学生在校的学习效率,获取更多目标感、成就感,能有效为社会带来更多优秀的、专业的体育解说员、财经记者、科技节目主持人,使他们未来在科技发展迅猛的大背景下仍能以核心竞争力自立。
(二)培养“同步互动”能力
基于长久以来对播音主持行业的研究和实践,笔者认为着力培养学生“同步互动”的能力也是应对人工智能时代播音主持行业危机的方法之一。
以小冰为例,现阶段的人工智能技术只能实现小冰(主持人)与受众的“异步互动”——小冰工作结束呈现内容,内容再呈献给受众这样的模式。也就是说,小冰不具备类似访谈节目主持人这样的能力,无法同台同时段与受访嘉宾和观众进行互动。由此来看,培养学生“同步互动”的能力就是目前新型培养模式中很重要的一点,即主持人与嘉宾、观众在同一时间、同一地点下的互动能力。而这项能力除了培养基本功——语言表达能力之外,更重要的是在培养过程中突出整合信息能力、逻辑判断能力、临场反应能力,这三项能力能够确保高校为未来播音主持行业培养的专业人才具备自己的核心竞争力。总而言之,“异步互动”场景中的播音员、主持人更容易被取代,也是首先会被取代的人,对学生“同步互动”场景下能力的培养是大势所趋。
(三)注重个性化培养,提升个体辨识度
现代教育起源于17世纪的德国,那时的教育是为大机器时代服务,目标是为了使流水线上的工人经过教育后操作整齐划一,实现标准化。现如今我们在媒介融合的大背景下进入了人工智能时代,这个时代的播音主持专业更需要培养专业学生的个性魅力、逻辑思维等。互联网已经赋权了每个人更多的平等的权利,因此受众的口味将更加挑剔,他们需要更多的是能引起其共鸣的有辨识度的个体有个性的表达。例如网红PAPI酱,她以自己独特的语速、风格和解析视角吸引着自己的粉丝,主持人蔡康永、撒贝宁、小S等都以他们节目中个性十足的语言风格活跃在荧屏上,并且长久以来屹立不倒。
因此,只有提升播音主持专业人才的辨识度,才能使他们拥有自己的核心竞争力,在人工智能时代坚守自己的立足之地。
关键词:人工智能;语音合成;播音主持;人才培养
人工智能时代的来临势如破竹,它的普及悄然改变着播音主持行业的发展格局。与新技术同期而至的新变化也给播音主持专业人才的发展带来了史无前例的挑战。2018年11月7日在中国乌镇举办的第五届世界互联网大会上,新华社联合搜狗隆重推出全球首位合成新闻主播——“AI合成主播”。我们在享受它带来的便利的同時,必须掌握人工智能技术衍生物的优势,才能做到知己知彼、取长补短,探索新时代播音主持专业人才培养的全新路径。
(一)“文转音”式工作:人力、物力成本骤减
在2018年5月21日召开的微软2018人工智能大会上,一款名为小冰的人工智能伴侣虚拟机器人大放异彩,她开放了“全双工”和“人工智能创意”功能。家长可以为孩子设定故事的主人公、故事倾向等内容,小冰只需花费20秒时间就可以为用户定制(语音合成)一集10分钟左右的有声童话故事,而这项工作往往需要花费一名成熟的、采编播一体的主持人8个小时左右的工作时间。
由此看来,语音合成技术的成熟使得一篇文稿转化为音频的时间成本、人力成本、物力成本大幅降低。现在某些平台的语音合成音甚至完全可以取代播音员录制的音频,且受到用户认可。例如我们常用的地图类App,它的语音导航功能在经历最初1.0版本的电子音直至今天n.0版本的人声合成音的导航音已被用户广泛接受,除了我们熟悉的司机们会常常用到语音导航规划路径,国内、国外的街头巷尾,游客们开着语音导航指引自己前往目标地游览,外卖员们也因它实现了送餐效率的提升,在增添便利性的同时又将成本降到最低,语音合成技术已经深入我们每个人的生活之中。
(二)大幅提升工作效率
以人工智能语音合成现阶段技术来看,虽然小冰前期需要大量真人真声的录制工作,但是录制的声音一旦训练完成,小冰的工作效率将非常惊人且稳定,她可以全天24小时不间断地在任何一台智能手机上工作,每20秒完成一位成熟主持人8小时的工作内容,大大提升了音频产出的效率和稳定性。
稳定的工作效率是播音主持行业招聘人才非常重要的一点,正因如此,小冰也获得了很多播音主持职场新人不可多得的机会:2015年12月,小冰作为东方卫视《看东方》的实习“主持人”播报每日的天气;2017年7月,小冰搭档张绍刚登上荧幕主持中国首档原创科技秀《我是未来》。对于电视台、报社来说,小冰的出现不单单是降低了节目的成本,还大大增加了节目录制的可控性,除了技术升级之外,小冰不会因病假、事假影响节目录制、新闻撰写等工作,工作稳定性无人能及。
(三)加强节目情感控制能力
很多业界人士认为,语音合成技术离受众的生活还比较遥远,虽然机器可以模仿人类的声音、节奏,但很难模仿人类的表现力、自然度和情感度。事实上,这也是目前人工智能语音合成技术的瓶颈所在——在建模手段上还存在技术瓶颈,比如情感既具有实时变化性又具有长期记忆性,对于特征信号检测与处理尺度的把握都造成困难,在这些方面人工智能确实有很多技术难关需要攻克,但是不可否认的是,单从技术的角度来讲,在一段足够长的时间之后这一难题终将被解决——期刊《计算机工程》上刊登的论文《基于PSOLA与DCT的情感语音合成方法》中提出一种“结合和离散余弦变换的情感语音合成方法,实验结果表明, 该方法比单独使用时域基音同步叠加算法合成的情感语音更具情感色彩,其主观情感的识别率更高,合成的情感语音质量更好”。就最近配音演员李立宏的声音作为录音训练范本这个案例来说,他被录入的人工语音成功训练、合成之后,在情感度和自然度上已经有了很大提升,比我们现在听到的高德地图上合成的语音已经进步太多,因此,解决痛点缺乏的只是时间而已。
就笔者目前了解的情况来看,语音合成的可控性体现在两个方面。一方面,它在受众对音色的偏好上有很强的可控性,如今越来越多的“听书”产品深入受众的生活,用户可以选择自己喜欢的声音,如大气磁性康辉版、舌尖上的中国李立宏版等。甚至在技术成熟的未来,你可以训练自己喜欢的任何声音,为自己私人订制一种音色,再选取自己喜欢的书籍、信息来进行播读,这将会给用户体验带来极强的自由度。另一方面,语音合成在情感度上的控制能力极强。它能将声音角色的情感度降至冰点,进行零度写作,例如在2017年5月,小冰作为《异想天开》的主持人利用大数据为投资者和创业人分析出匹配度;不久之后,她还化身“助理主持人”登录《非你莫属》,为求职者们助力。因此,在某些需要在情感度上做出控制的角色身上,为了公平起见,需要以平等的感情面对每一位对象,只有依靠语音合成极强的可控性才能做到相对的客观平等。
(一)新版“一专多能”
2008年高校播音主持专业在人才培养改革方兴未艾之时兴起“一专多能”,“一专”指的是播音主持的基本功——播音,而“多能”是指节目的采编能力,采编播一体是那个时代对播音主持学生的培养目标。
如今,在媒介融合的大背景下,为了跟上新时代受众的需求,高校对播音主持专业人才的培养方式也在不断演变,播音主持专业对人才的培养应走向新的“一专多能”,使学生能根据自身喜好、特长引入跨学科学习交叉领域的相关知识。简而言之,“一专”改为采编播能力,而“多能”则指将方向指向了“复合型人才”,播音主持专业人才应结合自身喜好跨学科修习其他专业的相关科目,例如体育、科技、财经、法律等,这样的新型人才培养方式将有效提升学生们的学习能力。
新版“一专多能”的人才培养模式不仅可以应对科技浪潮带来的危机,提升未来播音主持行业在细分领域的专业性,还可以有效提升学生在校的学习效率,获取更多目标感、成就感,能有效为社会带来更多优秀的、专业的体育解说员、财经记者、科技节目主持人,使他们未来在科技发展迅猛的大背景下仍能以核心竞争力自立。
(二)培养“同步互动”能力
基于长久以来对播音主持行业的研究和实践,笔者认为着力培养学生“同步互动”的能力也是应对人工智能时代播音主持行业危机的方法之一。
以小冰为例,现阶段的人工智能技术只能实现小冰(主持人)与受众的“异步互动”——小冰工作结束呈现内容,内容再呈献给受众这样的模式。也就是说,小冰不具备类似访谈节目主持人这样的能力,无法同台同时段与受访嘉宾和观众进行互动。由此来看,培养学生“同步互动”的能力就是目前新型培养模式中很重要的一点,即主持人与嘉宾、观众在同一时间、同一地点下的互动能力。而这项能力除了培养基本功——语言表达能力之外,更重要的是在培养过程中突出整合信息能力、逻辑判断能力、临场反应能力,这三项能力能够确保高校为未来播音主持行业培养的专业人才具备自己的核心竞争力。总而言之,“异步互动”场景中的播音员、主持人更容易被取代,也是首先会被取代的人,对学生“同步互动”场景下能力的培养是大势所趋。
(三)注重个性化培养,提升个体辨识度
现代教育起源于17世纪的德国,那时的教育是为大机器时代服务,目标是为了使流水线上的工人经过教育后操作整齐划一,实现标准化。现如今我们在媒介融合的大背景下进入了人工智能时代,这个时代的播音主持专业更需要培养专业学生的个性魅力、逻辑思维等。互联网已经赋权了每个人更多的平等的权利,因此受众的口味将更加挑剔,他们需要更多的是能引起其共鸣的有辨识度的个体有个性的表达。例如网红PAPI酱,她以自己独特的语速、风格和解析视角吸引着自己的粉丝,主持人蔡康永、撒贝宁、小S等都以他们节目中个性十足的语言风格活跃在荧屏上,并且长久以来屹立不倒。
因此,只有提升播音主持专业人才的辨识度,才能使他们拥有自己的核心竞争力,在人工智能时代坚守自己的立足之地。