未来,声音将控制一切

来源 :支点 | 被引量 : 0次 | 上传用户:glorfinde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  核心提示:随着移动互联网和人工智能的发展,人机交互方式将向智能语音交互方式发展。在未来,我们将用声音控制一切。
  电影《她》中,主人公西奥多的工作是写信,坐在电脑前,对着电脑口述信件内容,屏幕上就会即时显示文字内容。下班后,西奥多通过向手机发布语音指令来听音乐、读电子邮件和浏览新闻。
  西奥多最近才离了婚,他的寂寞是手机无法理解的,直到他遇上世界上首个人工智能操作系统OS1。OS1给自己取了个名字叫萨曼莎。西奥多在与萨曼莎的聊天中,找到了快乐,也成就了一段奇异的人机情缘。
  以前,我们与机器的交互,典型如操作手机,从最初的按键盘按钮到现在触摸手机屏幕,主要靠动手实现。随着我们使用手机场景的不断丰富,与电影中所展示的一样,我们与手机通过语音交互的方式正在逐步流行。
  电影《她》被归为科幻片。如果说西奥多通过语音控制手机播放音乐、浏览新闻多多少少有现实的影子的话,那么人工智能萨曼莎则是科幻。但是技术又不甘心只让我们生活在幻想中。技术的创新力量就在于将科幻变为现实。得益于技术进步,在万物互联的未来,我们与机器打交道,很可能是“动口”不“动手”。我们将用声音控制一切。
  “耳”与“脑”
  要让机器听懂我们说的话并能与我们说话交流,这就需要给机器装上“耳朵”、“大脑”和“嘴巴”。
  机器的“耳朵”作为语音传输的通道,能够识别我们说话的声音、语种和内容,并将它们翻译为文本,这里主要涉及到语音识别技术。
  “耳朵”听到文本内容后,机器“大脑”开始发挥作用,对文本的文法、背景知识和语义进行逻辑分析,使机器真正理解我们说的究竟是什么意思。在这里,语义分析技术大显神威。
  理解了我们所说的内容,机器就要用“嘴巴”说话,对我们的诉求进行反馈,将任意的文字转化为自然流畅的语音。这就是语音合成技术。
  未来确保我们能用声音控制一切的智能语音技术,主要就包括上述三种子技术。
  在北京光年无限科技有限公司CEO俞志晨看来,语音识别和语义分析是最重要的智能语音技术。俞志晨和他的创业团队于2013年推出的“虫洞语音助手”,就专长于语义分析。不要觉着“虫洞”这个名字很科幻,就以为语音助手提供的都是些玄而又玄的服务,其实它专注于为我们的日常生活服务,问天气、找饭馆,信手拈来,很接地气。
  《支点》记者曾经与中国智能机器人第一品牌——小i机器人有过一次交流,其中有一段对话如下:
  记者:你觉得人工智能会毁灭人类吗?
  小i机器人:我会的东西可多了,没必要一一阐述了吧。
  在记者看来,小i机器人并没有理解这个问题,许多智能语音产品在语义分析方面普遍做得不好。
  俞志晨解释说:“这个问题对小i机器人来说太冷门了。就好像一个科学家向一个普通人问一个高深的科学问题,而普通人无法理解一样。”不过小i机器人在通信、金融等细分行业领域有着较为完备的知识库,理解能力会较好。
  “说到底,语义分析主要基于算法和知识库,优化算法和知识库建设将会提高语义分析能力。”俞志晨对《支点》记者说。
  对机器来说,除了有冷门问题的语义挑战,还有方言和环境噪音的困扰。中国各地的方言很多,如果使用环境比较嘈杂,都会影响到语音识别的准确度。“在良好的环境下,用普通话与机器对话,许多语音产品的识别率能在90%以上。而在噪音和方言环境中,识别准确率只能达到60%-70%。”俞志晨实话实说。
  另外,电影《她》中普通手机与人工智能萨曼莎,在智能层次上有一定差距。萨曼莎可主动与西奥多进行对话交流,而普通手机必须在西奥多发出语音指令以后才会进行交互。在交互方式上,现在的很多智能语音产品还无法像萨曼莎一样主动与用户交互。
  声控时代即将来临
  尽管智能语音技术门槛很高,但随着Siri的出现,智能语音市场呈现出一番热火朝天的景象,互联网科技巨头和创业公司纷纷入局智能语音。
  目前语音识别市场相对成熟,这得益于传统老牌语音识别企业多年来的技术积累。比如为Siri提供语音技术支持的美国Nuance公司,占据着全球语音识别市场80%的份额。Nuance的语音识别引擎能识别大约60种语言和方言,可合成39种语言。全球上亿部智能手机、车载导航系统以及呼叫中心,都使用了Nuance的语音技术。
  如果说Nuance是国际上的语音识别大佬,那么科大讯飞则在国内语音识别市场上占据了头把交椅。成立于1999年的科大讯飞,十几年来一直专注于语音识别技术研发。据其官网称,其在国内电信、金融、能源、交通等行业内的份额占到了80%以上。比如已经合并的滴滴和快的所使用的语音技术,就是由科大讯飞提供的。目前在国内还有云知声、中科信利和盛大等公司提供语音识别技术。
  与智能语音中的“耳”相比,“脑”还有很大的发展潜力。智能语音的“脑”产品主要是像Siri一样的人工智能,它们像私人助手一般,能够听懂我们说的话,从而为我们的生活提供便利。在国外私人语音助手市场上,苹果的Siri、微软的Cortana和谷歌的Google Now,形成三足鼎立的局面。
  Siri刚推出的时候,并没有中文语音服务,这就给了中国企业入局的机会,各种中国版Siri纷至沓来。百度、搜狗和科大讯飞分别推出了自己的语音助手产品,也有像虫洞语音助手、出门问问、小i机器人和智能360这样的创业型公司推出的语音产品。
  智能语音的热潮,是跟移动互联网的发展相适应的。在移动互联网时代,新出现的各种场景化应用让以前的人机交互方式变得有些落伍,而语音作为最为自然的交互方式,则恰好满足了新的场景化应用需求。
  如今我们使用最多的移动终端是智能手机,与PC相比,手机屏幕较小,用手输入较为不便,而语音输入则更为便捷和自然。比如,驾驶汽车时,用手来操作手机既不方便又很危险,而语音操作则显得方便而又安全。   中兴通讯的终端事业部CEO曾学忠就认为,移动终端的下一个革命就是声控革命。他说:“三年前我们还很难想象人们拿着手机对着微信吼,而现在的手机语音与三年前的微信语音一样,在未来也会成为随处可见的场景,声控时代即将来临。”
  语音或是移动搜索的最好形式
  当Siri刚开始出现的时候,许多人都是抱着娱乐的态度使用Siri,时不时会调戏Siri一番,比如对Siri说:“我爱你!”Siri也很狡猾:“希望你不要对其他手机也这么说。”
  但如果只把Siri当作无聊时的陪聊工具,那就太掉价了,毕竟Siri是响当当的人工智能。正是得益于人工智能的发展,智能语音技术已经应用于我们生活中的各种场景,为我们服务。虫洞语音助手正朝着这个方向发展。
  2012年3月,俞志晨和他的团队发布了虫洞语音助手,他的愿景就是让它成为用户的私人助手,满足生活的各种需求,查询天气、票务等各种有用信息。最初,虫洞语音助手以手机应用的形式出现,使手机变身为智能机器人。随后,虫洞语音助手向车载系统、智能家居和可穿戴设备等方向迁移,使它的应用范围更加广泛。
  “虫洞语音助手主要专注于为用户的生活服务,现在也已应用到了车载系统和智能家居上,比如我们跟海尔的智能家居就有合作。”俞志晨对《支点》记者说。
  因为在人机交互的语义分析领域深耕,俞志晨和他的团队在去年又推出了人机交互引擎服务平台——图灵机器人,其他的开发者可在图灵机器人的基础上做二次开发。开发者基于图灵机器人,在微博、微信、客服、智能硬件等领域搭建个性化的智能机器人。目前有超过30000名开发者入驻图灵机器人,形成了人工智能的良好生态。
  出门问问CEO李志飞和他的团队,正在向着智能语音搜索方向发力。这位专注于机器翻译的前谷歌科学家,继承了谷歌的创新基因,回国后打造了中国版的Google Now——出门问问。在出门问问的微信公众号上,用户可以与它语音交流。比如问:“附近的咖啡馆在哪里?”出门问问就会给用户一个咖啡馆列表。跟Siri不一样,出门问问专注于为用户提供生活服务信息搜索,而不会跟用户闲聊。
  李志飞认为智能语音搜索代表着移动互联网的发展方向。在PC时代,用户习惯了对着键盘和屏幕文字搜索关键词寻找需要的信息,地点是固定的,搜索内容倾向于紧急性需求(工作、学习、医疗)和消遣性需求(影视、音乐、小说);而在移动互联网时代,用户通常会在不同地点对着方寸之间的小屏幕进行搜索,更倾向于搜索美食、地标、旅游等LBS资源信息。
  “移动设备的小型、移动、便携和功能性,以及更偏重生活和娱乐的需求,让用户倾向于更加直接、快速、简洁的搜索方式,文字搜索已经无法满足用户的需求,语音交互作为一种非常方便、自然的表达,是移动搜索的最好形式。”李志飞在给《支点》记者的书面回复中强调。
  人工智能能否超越人类
  尽管智能语音市场潜力无限,各种语音技术产品和服务琳琅满目,但我们使用这些服务时,总觉得它们还没有像萨曼莎一样聪明。福布斯资深记者Elise Ackerman就生活中的一些需求向Siri和Google Now寻求帮助时发现,这些智能语音在实际生活当中的表现差强人意。当她向语音助手询问最近的加油站时,Siri为她介绍了很远的加油站,而Google Now则为她介绍了其他一个州的加油站,它们谁都不知道在Elise Ackerman家的拐角处就有一家加油站。
  智能语音技术作为人工智能的一部分,目前仍具有很大的技术发展空间。我们之所以觉得现在的语音产品不够聪明,也许是因为人工智能的“奇点”还没有到来。未来学家雷·库兹韦尔有关人工智能的“奇点理论”,无疑给人工智能界注入了一剂强心剂。按照库兹韦尔的理论,到2045年,“奇点”来临,人工智能将超越人类智能水平。
  面对来势汹汹的人工智能,埃隆·马斯克、斯蒂芬·霍金和比尔·盖茨等纷纷发出了警告,让我们警惕人工智能这一人类的终结者。马斯克曾经这样“黑”人工智能:“我们需要万分警惕人工智能,它们比核武器更加危险。”
  在俞志晨看来,马斯克对人工智能的言论太过悲观,而人工智能的所谓“奇点”在短期内是不会来临的,现阶段让人工智能像人类智能一样仍旧很困难。对此,李志飞更直截了当地说:“奇点不会降临,人类不会灭绝。”
  我们所说的人工智能也是分等级的。简单的智能包括听觉、视觉、触觉等感知能力,高级的智能包括思考、情感、创造性等等。目前的人工智能技术还停留在初级阶段。
  未来人工智能技术会获得长足进步,但离真正意义上的人类智能还有很大差距,没有必要过于担忧。计算机的优势在于强大的存储和高速的运算能力。在某些特定任务上,人工智能已经超越人类,但在大多数方面,尤其是需要创造性的工作方面,计算机远不及人类。(支点杂志2015年4月刊)
其他文献
主持人的话题播音为一种有效的传播方式,越来越受到人们的普遍喜爱。实践证明:主持人进入话题和结束话题的技巧对传播效果有重要影响。实践中,主持人话题的进入和结束形式单
New media advertising makes inroads Jiang Nanchun, CEO of Focus Media, China’s largest out-of-home lifestyle media company, never expected that his idea to fil
本文首先简要介绍了目前较为流行的平台理念,阐述了平台的基本思想、基本构成。然后基于有线电视网络的自身性质,依照平台思想从理论上构建了有线电视网络平台模型,最后文章
2007年以来,在自治区党委、政府和国家广电总局的正确领导下,宁夏广播影视系统认真学习宣传贯彻党的十七大精神,以宣传工作为中心,以改革创新和科技进步为动力,以队伍建设为
本报讯认真学习胡锦涛总书记关于社会主义荣辱观的重要论断,结合新闻行业工作实际,用“八荣八耻”指导编辑记者加强社会主义道德修养,建立新的行业道德规范,陕西日报社及所属
介绍了杭钢2# 高炉主卷扬控制系统进行全数字化改造,选用美国AB 公司Bulletin 1395 数字直流驱动器。改造后的系统运行平稳,可靠性高,维护工作量小 Introduced Hangzhou Iron and Steel 2 # b
为了缩短产品的生产周期,提高市场占有份额,越来越多的企业使用计算机来辅助工艺设计。该文在实用性和智能性原则指导下,具体分析了中板冲压零件的工艺设计特点和创成式设计
为完善多媒体数字视频监控系统,基于DM642的嵌入式网络视频服务器应运而生。本文首先介绍了网络视频服务器的概念,阐述了机型小、简便性、中心控制、可扩展性等特点以及方便
随着社会的进步和发展,科学技术也得到了很大程度的提升,在这样的条件下变频器得到了相应的完善。从技术特点上来讲,变频器调速技术主要是将自动控制、微电子以及电力电子和
The thesis will analyze how to reconstruct gender identity through drag performance in a case study of Chen Zhipeng s images in public based on Judith Butlers c