论文部分内容阅读
近日,谷歌宣布推出Google Duplex,一个能在电话中用自然语言完成“现实世界”任务的对话AI。它目前已经能完成一些特定任务,如安排某些类型的预约。这类工作要求系统能像人与人正常沟通一样,而无须强制对方适应机器。
据悉,Google Duplex的研发核心是一个专用于解决自然对话问题的递归神经网络(RNN),在TensorFlow Extended (TFX)平台上完成构建,使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入,包括原音频特征、把原音频输入Google自动语音识别(ASR)技术后的输出、上下文、对话的参数(例如预约的所需服务或当前时间)等,研究人员为每种任务分别训练了一些模型,但语料库是跨任务共享的。最后,他们又用TFX中的超参数优化进一步改进了模型。
Google Duplex组合使用文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)控制語调。
由于在对话中加入了“嗯”“呃”等字,系统的回应听起来更自然。但这其实是TTS连接两个音调不同的声音或正在等待合成时使用的小障眼法,是一种自然的表示问题正在受理中的状态(人们也经常这么做)。经过用户研究,研究人员发现这种反应能在不利的对话情景下给对方带来熟悉、自然的感觉。
此外,Google Duplex在回应速度方面也比较符合用户期望。当人们说完一件简单的事后,比如“hello”他们希望得到及时的回复,对回复延迟也比较敏感。如果系统检测到这种情况,它会马上切换成更快、精度更低的模型来工作。在极端情况下,Google Duplex甚至都不会调用RNN,而直接使用最快的近似值(通常会带各种表示犹豫的词汇,人类面对这种事情也会有类似的反应)。这种做法使系统的响应延迟能小于100毫秒。
Google Duplex系统能够应对复杂对话,并且能完全自主地完成绝大部分任务,无须人工干预。该系统具有自我监控功能,可以识别无法自动完成的任务(例如安排异常复杂的预约),面对这种情况时,它会主动向施令者发出信号。
据悉,Google Duplex的研发核心是一个专用于解决自然对话问题的递归神经网络(RNN),在TensorFlow Extended (TFX)平台上完成构建,使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入,包括原音频特征、把原音频输入Google自动语音识别(ASR)技术后的输出、上下文、对话的参数(例如预约的所需服务或当前时间)等,研究人员为每种任务分别训练了一些模型,但语料库是跨任务共享的。最后,他们又用TFX中的超参数优化进一步改进了模型。
Google Duplex组合使用文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)控制語调。
由于在对话中加入了“嗯”“呃”等字,系统的回应听起来更自然。但这其实是TTS连接两个音调不同的声音或正在等待合成时使用的小障眼法,是一种自然的表示问题正在受理中的状态(人们也经常这么做)。经过用户研究,研究人员发现这种反应能在不利的对话情景下给对方带来熟悉、自然的感觉。
此外,Google Duplex在回应速度方面也比较符合用户期望。当人们说完一件简单的事后,比如“hello”他们希望得到及时的回复,对回复延迟也比较敏感。如果系统检测到这种情况,它会马上切换成更快、精度更低的模型来工作。在极端情况下,Google Duplex甚至都不会调用RNN,而直接使用最快的近似值(通常会带各种表示犹豫的词汇,人类面对这种事情也会有类似的反应)。这种做法使系统的响应延迟能小于100毫秒。
Google Duplex系统能够应对复杂对话,并且能完全自主地完成绝大部分任务,无须人工干预。该系统具有自我监控功能,可以识别无法自动完成的任务(例如安排异常复杂的预约),面对这种情况时,它会主动向施令者发出信号。