论文部分内容阅读
核心提示:随着移动互联网和人工智能的发展,人机交互方式将向智能语音交互方式发展。在未来,我们将用声音控制一切。
电影《她》中,主人公西奥多的工作是写信,坐在电脑前,对着电脑口述信件内容,屏幕上就会即时显示文字内容。下班后,西奥多通过向手机发布语音指令来听音乐、读电子邮件和浏览新闻。
西奥多最近才离了婚,他的寂寞是手机无法理解的,直到他遇上世界上首个人工智能操作系统OS1。OS1给自己取了个名字叫萨曼莎。西奥多在与萨曼莎的聊天中,找到了快乐,也成就了一段奇异的人机情缘。
以前,我们与机器的交互,典型如操作手机,从最初的按键盘按钮到现在触摸手机屏幕,主要靠动手实现。随着我们使用手机场景的不断丰富,与电影中所展示的一样,我们与手机通过语音交互的方式正在逐步流行。
电影《她》被归为科幻片。如果说西奥多通过语音控制手机播放音乐、浏览新闻多多少少有现实的影子的话,那么人工智能萨曼莎则是科幻。但是技术又不甘心只让我们生活在幻想中。技术的创新力量就在于将科幻变为现实。得益于技术进步,在万物互联的未来,我们与机器打交道,很可能是“动口”不“动手”。我们将用声音控制一切。
“耳”与“脑”
要让机器听懂我们说的话并能与我们说话交流,这就需要给机器装上“耳朵”、“大脑”和“嘴巴”。
机器的“耳朵”作为语音传输的通道,能够识别我们说话的声音、语种和内容,并将它们翻译为文本,这里主要涉及到语音识别技术。
“耳朵”听到文本内容后,机器“大脑”开始发挥作用,对文本的文法、背景知识和语义进行逻辑分析,使机器真正理解我们说的究竟是什么意思。在这里,语义分析技术大显神威。
理解了我们所说的内容,机器就要用“嘴巴”说话,对我们的诉求进行反馈,将任意的文字转化为自然流畅的语音。这就是语音合成技术。
未来确保我们能用声音控制一切的智能语音技术,主要就包括上述三种子技术。
在北京光年无限科技有限公司CEO俞志晨看来,语音识别和语义分析是最重要的智能语音技术。俞志晨和他的创业团队于2013年推出的“虫洞语音助手”,就专长于语义分析。不要觉着“虫洞”这个名字很科幻,就以为语音助手提供的都是些玄而又玄的服务,其实它专注于为我们的日常生活服务,问天气、找饭馆,信手拈来,很接地气。
《支点》记者曾经与中国智能机器人第一品牌——小i机器人有过一次交流,其中有一段对话如下:
记者:你觉得人工智能会毁灭人类吗?
小i机器人:我会的东西可多了,没必要一一阐述了吧。
在记者看来,小i机器人并没有理解这个问题,许多智能语音产品在语义分析方面普遍做得不好。
俞志晨解释说:“这个问题对小i机器人来说太冷门了。就好像一个科学家向一个普通人问一个高深的科学问题,而普通人无法理解一样。”不过小i机器人在通信、金融等细分行业领域有着较为完备的知识库,理解能力会较好。
“说到底,语义分析主要基于算法和知识库,优化算法和知识库建设将会提高语义分析能力。”俞志晨对《支点》记者说。
对机器来说,除了有冷门问题的语义挑战,还有方言和环境噪音的困扰。中国各地的方言很多,如果使用环境比较嘈杂,都会影响到语音识别的准确度。“在良好的环境下,用普通话与机器对话,许多语音产品的识别率能在90%以上。而在噪音和方言环境中,识别准确率只能达到60%-70%。”俞志晨实话实说。
另外,电影《她》中普通手机与人工智能萨曼莎,在智能层次上有一定差距。萨曼莎可主动与西奥多进行对话交流,而普通手机必须在西奥多发出语音指令以后才会进行交互。在交互方式上,现在的很多智能语音产品还无法像萨曼莎一样主动与用户交互。
声控时代即将来临
尽管智能语音技术门槛很高,但随着Siri的出现,智能语音市场呈现出一番热火朝天的景象,互联网科技巨头和创业公司纷纷入局智能语音。
目前语音识别市场相对成熟,这得益于传统老牌语音识别企业多年来的技术积累。比如为Siri提供语音技术支持的美国Nuance公司,占据着全球语音识别市场80%的份额。Nuance的语音识别引擎能识别大约60种语言和方言,可合成39种语言。全球上亿部智能手机、车载导航系统以及呼叫中心,都使用了Nuance的语音技术。
如果说Nuance是国际上的语音识别大佬,那么科大讯飞则在国内语音识别市场上占据了头把交椅。成立于1999年的科大讯飞,十几年来一直专注于语音识别技术研发。据其官网称,其在国内电信、金融、能源、交通等行业内的份额占到了80%以上。比如已经合并的滴滴和快的所使用的语音技术,就是由科大讯飞提供的。目前在国内还有云知声、中科信利和盛大等公司提供语音识别技术。
与智能语音中的“耳”相比,“脑”还有很大的发展潜力。智能语音的“脑”产品主要是像Siri一样的人工智能,它们像私人助手一般,能够听懂我们说的话,从而为我们的生活提供便利。在国外私人语音助手市场上,苹果的Siri、微软的Cortana和谷歌的Google Now,形成三足鼎立的局面。
Siri刚推出的时候,并没有中文语音服务,这就给了中国企业入局的机会,各种中国版Siri纷至沓来。百度、搜狗和科大讯飞分别推出了自己的语音助手产品,也有像虫洞语音助手、出门问问、小i机器人和智能360这样的创业型公司推出的语音产品。
智能语音的热潮,是跟移动互联网的发展相适应的。在移动互联网时代,新出现的各种场景化应用让以前的人机交互方式变得有些落伍,而语音作为最为自然的交互方式,则恰好满足了新的场景化应用需求。
如今我们使用最多的移动终端是智能手机,与PC相比,手机屏幕较小,用手输入较为不便,而语音输入则更为便捷和自然。比如,驾驶汽车时,用手来操作手机既不方便又很危险,而语音操作则显得方便而又安全。 中兴通讯的终端事业部CEO曾学忠就认为,移动终端的下一个革命就是声控革命。他说:“三年前我们还很难想象人们拿着手机对着微信吼,而现在的手机语音与三年前的微信语音一样,在未来也会成为随处可见的场景,声控时代即将来临。”
语音或是移动搜索的最好形式
当Siri刚开始出现的时候,许多人都是抱着娱乐的态度使用Siri,时不时会调戏Siri一番,比如对Siri说:“我爱你!”Siri也很狡猾:“希望你不要对其他手机也这么说。”
但如果只把Siri当作无聊时的陪聊工具,那就太掉价了,毕竟Siri是响当当的人工智能。正是得益于人工智能的发展,智能语音技术已经应用于我们生活中的各种场景,为我们服务。虫洞语音助手正朝着这个方向发展。
2012年3月,俞志晨和他的团队发布了虫洞语音助手,他的愿景就是让它成为用户的私人助手,满足生活的各种需求,查询天气、票务等各种有用信息。最初,虫洞语音助手以手机应用的形式出现,使手机变身为智能机器人。随后,虫洞语音助手向车载系统、智能家居和可穿戴设备等方向迁移,使它的应用范围更加广泛。
“虫洞语音助手主要专注于为用户的生活服务,现在也已应用到了车载系统和智能家居上,比如我们跟海尔的智能家居就有合作。”俞志晨对《支点》记者说。
因为在人机交互的语义分析领域深耕,俞志晨和他的团队在去年又推出了人机交互引擎服务平台——图灵机器人,其他的开发者可在图灵机器人的基础上做二次开发。开发者基于图灵机器人,在微博、微信、客服、智能硬件等领域搭建个性化的智能机器人。目前有超过30000名开发者入驻图灵机器人,形成了人工智能的良好生态。
出门问问CEO李志飞和他的团队,正在向着智能语音搜索方向发力。这位专注于机器翻译的前谷歌科学家,继承了谷歌的创新基因,回国后打造了中国版的Google Now——出门问问。在出门问问的微信公众号上,用户可以与它语音交流。比如问:“附近的咖啡馆在哪里?”出门问问就会给用户一个咖啡馆列表。跟Siri不一样,出门问问专注于为用户提供生活服务信息搜索,而不会跟用户闲聊。
李志飞认为智能语音搜索代表着移动互联网的发展方向。在PC时代,用户习惯了对着键盘和屏幕文字搜索关键词寻找需要的信息,地点是固定的,搜索内容倾向于紧急性需求(工作、学习、医疗)和消遣性需求(影视、音乐、小说);而在移动互联网时代,用户通常会在不同地点对着方寸之间的小屏幕进行搜索,更倾向于搜索美食、地标、旅游等LBS资源信息。
“移动设备的小型、移动、便携和功能性,以及更偏重生活和娱乐的需求,让用户倾向于更加直接、快速、简洁的搜索方式,文字搜索已经无法满足用户的需求,语音交互作为一种非常方便、自然的表达,是移动搜索的最好形式。”李志飞在给《支点》记者的书面回复中强调。
人工智能能否超越人类
尽管智能语音市场潜力无限,各种语音技术产品和服务琳琅满目,但我们使用这些服务时,总觉得它们还没有像萨曼莎一样聪明。福布斯资深记者Elise Ackerman就生活中的一些需求向Siri和Google Now寻求帮助时发现,这些智能语音在实际生活当中的表现差强人意。当她向语音助手询问最近的加油站时,Siri为她介绍了很远的加油站,而Google Now则为她介绍了其他一个州的加油站,它们谁都不知道在Elise Ackerman家的拐角处就有一家加油站。
智能语音技术作为人工智能的一部分,目前仍具有很大的技术发展空间。我们之所以觉得现在的语音产品不够聪明,也许是因为人工智能的“奇点”还没有到来。未来学家雷·库兹韦尔有关人工智能的“奇点理论”,无疑给人工智能界注入了一剂强心剂。按照库兹韦尔的理论,到2045年,“奇点”来临,人工智能将超越人类智能水平。
面对来势汹汹的人工智能,埃隆·马斯克、斯蒂芬·霍金和比尔·盖茨等纷纷发出了警告,让我们警惕人工智能这一人类的终结者。马斯克曾经这样“黑”人工智能:“我们需要万分警惕人工智能,它们比核武器更加危险。”
在俞志晨看来,马斯克对人工智能的言论太过悲观,而人工智能的所谓“奇点”在短期内是不会来临的,现阶段让人工智能像人类智能一样仍旧很困难。对此,李志飞更直截了当地说:“奇点不会降临,人类不会灭绝。”
我们所说的人工智能也是分等级的。简单的智能包括听觉、视觉、触觉等感知能力,高级的智能包括思考、情感、创造性等等。目前的人工智能技术还停留在初级阶段。
未来人工智能技术会获得长足进步,但离真正意义上的人类智能还有很大差距,没有必要过于担忧。计算机的优势在于强大的存储和高速的运算能力。在某些特定任务上,人工智能已经超越人类,但在大多数方面,尤其是需要创造性的工作方面,计算机远不及人类。(支点杂志2015年4月刊)
电影《她》中,主人公西奥多的工作是写信,坐在电脑前,对着电脑口述信件内容,屏幕上就会即时显示文字内容。下班后,西奥多通过向手机发布语音指令来听音乐、读电子邮件和浏览新闻。
西奥多最近才离了婚,他的寂寞是手机无法理解的,直到他遇上世界上首个人工智能操作系统OS1。OS1给自己取了个名字叫萨曼莎。西奥多在与萨曼莎的聊天中,找到了快乐,也成就了一段奇异的人机情缘。
以前,我们与机器的交互,典型如操作手机,从最初的按键盘按钮到现在触摸手机屏幕,主要靠动手实现。随着我们使用手机场景的不断丰富,与电影中所展示的一样,我们与手机通过语音交互的方式正在逐步流行。
电影《她》被归为科幻片。如果说西奥多通过语音控制手机播放音乐、浏览新闻多多少少有现实的影子的话,那么人工智能萨曼莎则是科幻。但是技术又不甘心只让我们生活在幻想中。技术的创新力量就在于将科幻变为现实。得益于技术进步,在万物互联的未来,我们与机器打交道,很可能是“动口”不“动手”。我们将用声音控制一切。
“耳”与“脑”
要让机器听懂我们说的话并能与我们说话交流,这就需要给机器装上“耳朵”、“大脑”和“嘴巴”。
机器的“耳朵”作为语音传输的通道,能够识别我们说话的声音、语种和内容,并将它们翻译为文本,这里主要涉及到语音识别技术。
“耳朵”听到文本内容后,机器“大脑”开始发挥作用,对文本的文法、背景知识和语义进行逻辑分析,使机器真正理解我们说的究竟是什么意思。在这里,语义分析技术大显神威。
理解了我们所说的内容,机器就要用“嘴巴”说话,对我们的诉求进行反馈,将任意的文字转化为自然流畅的语音。这就是语音合成技术。
未来确保我们能用声音控制一切的智能语音技术,主要就包括上述三种子技术。
在北京光年无限科技有限公司CEO俞志晨看来,语音识别和语义分析是最重要的智能语音技术。俞志晨和他的创业团队于2013年推出的“虫洞语音助手”,就专长于语义分析。不要觉着“虫洞”这个名字很科幻,就以为语音助手提供的都是些玄而又玄的服务,其实它专注于为我们的日常生活服务,问天气、找饭馆,信手拈来,很接地气。
《支点》记者曾经与中国智能机器人第一品牌——小i机器人有过一次交流,其中有一段对话如下:
记者:你觉得人工智能会毁灭人类吗?
小i机器人:我会的东西可多了,没必要一一阐述了吧。
在记者看来,小i机器人并没有理解这个问题,许多智能语音产品在语义分析方面普遍做得不好。
俞志晨解释说:“这个问题对小i机器人来说太冷门了。就好像一个科学家向一个普通人问一个高深的科学问题,而普通人无法理解一样。”不过小i机器人在通信、金融等细分行业领域有着较为完备的知识库,理解能力会较好。
“说到底,语义分析主要基于算法和知识库,优化算法和知识库建设将会提高语义分析能力。”俞志晨对《支点》记者说。
对机器来说,除了有冷门问题的语义挑战,还有方言和环境噪音的困扰。中国各地的方言很多,如果使用环境比较嘈杂,都会影响到语音识别的准确度。“在良好的环境下,用普通话与机器对话,许多语音产品的识别率能在90%以上。而在噪音和方言环境中,识别准确率只能达到60%-70%。”俞志晨实话实说。
另外,电影《她》中普通手机与人工智能萨曼莎,在智能层次上有一定差距。萨曼莎可主动与西奥多进行对话交流,而普通手机必须在西奥多发出语音指令以后才会进行交互。在交互方式上,现在的很多智能语音产品还无法像萨曼莎一样主动与用户交互。
声控时代即将来临
尽管智能语音技术门槛很高,但随着Siri的出现,智能语音市场呈现出一番热火朝天的景象,互联网科技巨头和创业公司纷纷入局智能语音。
目前语音识别市场相对成熟,这得益于传统老牌语音识别企业多年来的技术积累。比如为Siri提供语音技术支持的美国Nuance公司,占据着全球语音识别市场80%的份额。Nuance的语音识别引擎能识别大约60种语言和方言,可合成39种语言。全球上亿部智能手机、车载导航系统以及呼叫中心,都使用了Nuance的语音技术。
如果说Nuance是国际上的语音识别大佬,那么科大讯飞则在国内语音识别市场上占据了头把交椅。成立于1999年的科大讯飞,十几年来一直专注于语音识别技术研发。据其官网称,其在国内电信、金融、能源、交通等行业内的份额占到了80%以上。比如已经合并的滴滴和快的所使用的语音技术,就是由科大讯飞提供的。目前在国内还有云知声、中科信利和盛大等公司提供语音识别技术。
与智能语音中的“耳”相比,“脑”还有很大的发展潜力。智能语音的“脑”产品主要是像Siri一样的人工智能,它们像私人助手一般,能够听懂我们说的话,从而为我们的生活提供便利。在国外私人语音助手市场上,苹果的Siri、微软的Cortana和谷歌的Google Now,形成三足鼎立的局面。
Siri刚推出的时候,并没有中文语音服务,这就给了中国企业入局的机会,各种中国版Siri纷至沓来。百度、搜狗和科大讯飞分别推出了自己的语音助手产品,也有像虫洞语音助手、出门问问、小i机器人和智能360这样的创业型公司推出的语音产品。
智能语音的热潮,是跟移动互联网的发展相适应的。在移动互联网时代,新出现的各种场景化应用让以前的人机交互方式变得有些落伍,而语音作为最为自然的交互方式,则恰好满足了新的场景化应用需求。
如今我们使用最多的移动终端是智能手机,与PC相比,手机屏幕较小,用手输入较为不便,而语音输入则更为便捷和自然。比如,驾驶汽车时,用手来操作手机既不方便又很危险,而语音操作则显得方便而又安全。 中兴通讯的终端事业部CEO曾学忠就认为,移动终端的下一个革命就是声控革命。他说:“三年前我们还很难想象人们拿着手机对着微信吼,而现在的手机语音与三年前的微信语音一样,在未来也会成为随处可见的场景,声控时代即将来临。”
语音或是移动搜索的最好形式
当Siri刚开始出现的时候,许多人都是抱着娱乐的态度使用Siri,时不时会调戏Siri一番,比如对Siri说:“我爱你!”Siri也很狡猾:“希望你不要对其他手机也这么说。”
但如果只把Siri当作无聊时的陪聊工具,那就太掉价了,毕竟Siri是响当当的人工智能。正是得益于人工智能的发展,智能语音技术已经应用于我们生活中的各种场景,为我们服务。虫洞语音助手正朝着这个方向发展。
2012年3月,俞志晨和他的团队发布了虫洞语音助手,他的愿景就是让它成为用户的私人助手,满足生活的各种需求,查询天气、票务等各种有用信息。最初,虫洞语音助手以手机应用的形式出现,使手机变身为智能机器人。随后,虫洞语音助手向车载系统、智能家居和可穿戴设备等方向迁移,使它的应用范围更加广泛。
“虫洞语音助手主要专注于为用户的生活服务,现在也已应用到了车载系统和智能家居上,比如我们跟海尔的智能家居就有合作。”俞志晨对《支点》记者说。
因为在人机交互的语义分析领域深耕,俞志晨和他的团队在去年又推出了人机交互引擎服务平台——图灵机器人,其他的开发者可在图灵机器人的基础上做二次开发。开发者基于图灵机器人,在微博、微信、客服、智能硬件等领域搭建个性化的智能机器人。目前有超过30000名开发者入驻图灵机器人,形成了人工智能的良好生态。
出门问问CEO李志飞和他的团队,正在向着智能语音搜索方向发力。这位专注于机器翻译的前谷歌科学家,继承了谷歌的创新基因,回国后打造了中国版的Google Now——出门问问。在出门问问的微信公众号上,用户可以与它语音交流。比如问:“附近的咖啡馆在哪里?”出门问问就会给用户一个咖啡馆列表。跟Siri不一样,出门问问专注于为用户提供生活服务信息搜索,而不会跟用户闲聊。
李志飞认为智能语音搜索代表着移动互联网的发展方向。在PC时代,用户习惯了对着键盘和屏幕文字搜索关键词寻找需要的信息,地点是固定的,搜索内容倾向于紧急性需求(工作、学习、医疗)和消遣性需求(影视、音乐、小说);而在移动互联网时代,用户通常会在不同地点对着方寸之间的小屏幕进行搜索,更倾向于搜索美食、地标、旅游等LBS资源信息。
“移动设备的小型、移动、便携和功能性,以及更偏重生活和娱乐的需求,让用户倾向于更加直接、快速、简洁的搜索方式,文字搜索已经无法满足用户的需求,语音交互作为一种非常方便、自然的表达,是移动搜索的最好形式。”李志飞在给《支点》记者的书面回复中强调。
人工智能能否超越人类
尽管智能语音市场潜力无限,各种语音技术产品和服务琳琅满目,但我们使用这些服务时,总觉得它们还没有像萨曼莎一样聪明。福布斯资深记者Elise Ackerman就生活中的一些需求向Siri和Google Now寻求帮助时发现,这些智能语音在实际生活当中的表现差强人意。当她向语音助手询问最近的加油站时,Siri为她介绍了很远的加油站,而Google Now则为她介绍了其他一个州的加油站,它们谁都不知道在Elise Ackerman家的拐角处就有一家加油站。
智能语音技术作为人工智能的一部分,目前仍具有很大的技术发展空间。我们之所以觉得现在的语音产品不够聪明,也许是因为人工智能的“奇点”还没有到来。未来学家雷·库兹韦尔有关人工智能的“奇点理论”,无疑给人工智能界注入了一剂强心剂。按照库兹韦尔的理论,到2045年,“奇点”来临,人工智能将超越人类智能水平。
面对来势汹汹的人工智能,埃隆·马斯克、斯蒂芬·霍金和比尔·盖茨等纷纷发出了警告,让我们警惕人工智能这一人类的终结者。马斯克曾经这样“黑”人工智能:“我们需要万分警惕人工智能,它们比核武器更加危险。”
在俞志晨看来,马斯克对人工智能的言论太过悲观,而人工智能的所谓“奇点”在短期内是不会来临的,现阶段让人工智能像人类智能一样仍旧很困难。对此,李志飞更直截了当地说:“奇点不会降临,人类不会灭绝。”
我们所说的人工智能也是分等级的。简单的智能包括听觉、视觉、触觉等感知能力,高级的智能包括思考、情感、创造性等等。目前的人工智能技术还停留在初级阶段。
未来人工智能技术会获得长足进步,但离真正意义上的人类智能还有很大差距,没有必要过于担忧。计算机的优势在于强大的存储和高速的运算能力。在某些特定任务上,人工智能已经超越人类,但在大多数方面,尤其是需要创造性的工作方面,计算机远不及人类。(支点杂志2015年4月刊)