论文部分内容阅读
伴随着移动互联网的日益发展,请音交互的重要性愈发突出,语音市场已经成为众多企业必争之地,市场上掀起“圈地运动”。苹果的Siri已经广为人知;谷歌前不久发布的“OKGoogle”,语音控制命令就成为一大亮点。
与此同时,国内的上市企业也纷纷发力,科大讯飞立体云、捷通华声套餐云、云知声灵巧云和百度开放云相继推出……业内人士指出,语音必将成为移动互联网的下一个重要入口,市场已丌始风生水起。
抢占市场
作为新一代的人机交互技术手段,智能语音就像人与人之问对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。
以百度语音为例,就是通过语音识别、语义理解和后台资源来实现“你说我听”、“你说我想”和“你说我做”的过程,打造人机交互的闭环过程。
事实上,智能语音在2l世纪初就从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;而就在以苹果Siri发布成为重要转折点,智能语音应用才开始向移动互联网等新兴领域延伸,产业进而不断积累、发展。
智能请音技术作为人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多门学科,研究周期长,投入成本大,技术壁垒高。目前,全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。
而在国内市场,目前智能语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞、捷通华声、中科模识、中科信利等;第二类是互联网厂商,包括百度、腾讯、搜狗等,它们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,它们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。
随着移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术有力推进,智能家电、汽车电了、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。
近两年来,我国智能请音市场也是风起云浦:云知声创立后仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年8月,百度正式宣布向开发者开放语音生态系统;2014年4月,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日,锤子科技首款智能手机Smartisan Tl发布,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业仍是一片欣欣向荣。
质疑不断
随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本上化不断加强,国内语音企业将而临越来越大的竞争压力。相较于Nuance等国际巨头,国内语音企业在创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。
以科大讯飞推出的讯飞输入法为例,其语音识别率可以达到95%以上,但从整个语音识别应用来看,现阶段的用户体验智能用“蹩脚”形容。
一方面是语音交互的错误容易传递的先天缺陷使然。“如果语音识别的准确率在85%-95%之间,语义分析的准确率在85%-95%之间,最后识别的准确率只有70%-90%。”思必驰首席科学家俞凯表示。
对于离线请音技术而言则更加困难。目前,拥有离线语音技术的有谷歌与苹果两大国际巨头以及科大讯飞。但受无网络连接、存储空间有限等原因影响,科大讯飞的离线语音识别成功率只有85%左右,“刚达到能用的水平。”
另一方而,语音识别技术因为技术门槛太高,往高级功能的进化还刚刚开始。“从请音评测、请音合成到对自然语义的理解,每一个方向都需要足够的语料和算法进行不断的优化。”科大讯飞移动互联事业部副总经理章继东说。
在技术优化的同时,还需要构建一个生态系统。“基于语音自然交互越来越便捷,会取代键盘输入等方式,这是一个趋势,但是上升到刚需的层面,现在不是时候。”章继东说。
尽管智能语音识别质疑声不断,但阻挡不了投资名的行动。“所有手机制造商都在投资语音、拓展请音技术领域的投资,打造更优雅的设计并将其深入集成到手机中。”语音识别技术公司Nuance高级副总裁迈克尔汤普森这样说。
尽管苹果的Siri屡遭调侃,甚至被称为苹果最失败的产品之一,但苹果的投入有增无减。苹果甚至在麻省理工大学(MIT)附近组建了神秘办公室,用以做Siri语音识别技术的研发。俞凯透露,Siri音技术部门的人员保持在1:4的配比。1个人负责研究语音的输入输出,4个人负责自然语言处理,用以攻坚语音自然交互的困难。
在语音识别领域深耕的国内厂商也获得投资用以研发。早在2012年,思必驰获得联想和启迪等三方的联合投资。同年,中国移动通过其子公司以1363亿人民币的价格八股科大讯飞,占股15%,随后在当年12月联合推出智能请音门户产品“灵犀”,其可以实现语音打电话、发短信、查天气等功能。
捷通华声董事长张连毅在接受记者采访时表示,“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。如果我们能把握好现在的机会,好好练内动,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”
下一个引爆点
“有时候可能就是熬,甚至也有可能未来是由于其他方向带动起来。”章继东说。他认为微信是其中一例。
在微信刚刚推出之时,很多人看到别的用户在对着手机“自言自语”时会觉得很纳闷,后来才发现是微信的语音对讲功能。而现在,人们已经对此习以为常。
章继东认为,下一个有可能引爆语音识别应用的是正越来越流行的可穿戴设备。比如手环可以把用户数据传到云端去,通过分析提出一个针对个人健康状况的建议。甚至,数据发现一个用户作息不规律,语音助手可以在用户需要休息的时候给出一个语音提示。
更现实的应用是智能手表等可穿戴设备,比如声纹识别和请音唤醒等功能可以成为典型应用。前者用户可以将自己的声音做为开启设备的密码,后者则在用户不接触设备的情况下唤醒设备。
“我们也在和芯片厂商合作,尝试将语音识别技术集成到智能可穿戴设备中,以此来降低功耗,扩大语音识别在可穿戴设备上的应用时间。”一家语音识别技术厂商的负责人说。
而易观国际分析师王珺也认为,随着智能终端的普及以及可穿戴设备、智能电视和车载设备等的发展,智能语音行业发展趋势见好。语音会是未来一种简单和常用的人机交互模式。特别是在场景化的环境中,如驾车时,不方便通过手或者眼球操作,语音是一种首选的方式。
与此同时,国内的上市企业也纷纷发力,科大讯飞立体云、捷通华声套餐云、云知声灵巧云和百度开放云相继推出……业内人士指出,语音必将成为移动互联网的下一个重要入口,市场已丌始风生水起。
抢占市场
作为新一代的人机交互技术手段,智能语音就像人与人之问对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。
以百度语音为例,就是通过语音识别、语义理解和后台资源来实现“你说我听”、“你说我想”和“你说我做”的过程,打造人机交互的闭环过程。
事实上,智能语音在2l世纪初就从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;而就在以苹果Siri发布成为重要转折点,智能语音应用才开始向移动互联网等新兴领域延伸,产业进而不断积累、发展。
智能请音技术作为人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多门学科,研究周期长,投入成本大,技术壁垒高。目前,全球和中国智能语音市场基本形成寡头垄断的格局。随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。
而在国内市场,目前智能语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞、捷通华声、中科模识、中科信利等;第二类是互联网厂商,包括百度、腾讯、搜狗等,它们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,它们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。
随着移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术有力推进,智能家电、汽车电了、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。
近两年来,我国智能请音市场也是风起云浦:云知声创立后仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年8月,百度正式宣布向开发者开放语音生态系统;2014年4月,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日,锤子科技首款智能手机Smartisan Tl发布,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业仍是一片欣欣向荣。
质疑不断
随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本上化不断加强,国内语音企业将而临越来越大的竞争压力。相较于Nuance等国际巨头,国内语音企业在创新能力、集成应用、行业应用拓展等方面还有不小差距。国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。
以科大讯飞推出的讯飞输入法为例,其语音识别率可以达到95%以上,但从整个语音识别应用来看,现阶段的用户体验智能用“蹩脚”形容。
一方面是语音交互的错误容易传递的先天缺陷使然。“如果语音识别的准确率在85%-95%之间,语义分析的准确率在85%-95%之间,最后识别的准确率只有70%-90%。”思必驰首席科学家俞凯表示。
对于离线请音技术而言则更加困难。目前,拥有离线语音技术的有谷歌与苹果两大国际巨头以及科大讯飞。但受无网络连接、存储空间有限等原因影响,科大讯飞的离线语音识别成功率只有85%左右,“刚达到能用的水平。”
另一方而,语音识别技术因为技术门槛太高,往高级功能的进化还刚刚开始。“从请音评测、请音合成到对自然语义的理解,每一个方向都需要足够的语料和算法进行不断的优化。”科大讯飞移动互联事业部副总经理章继东说。
在技术优化的同时,还需要构建一个生态系统。“基于语音自然交互越来越便捷,会取代键盘输入等方式,这是一个趋势,但是上升到刚需的层面,现在不是时候。”章继东说。
尽管智能语音识别质疑声不断,但阻挡不了投资名的行动。“所有手机制造商都在投资语音、拓展请音技术领域的投资,打造更优雅的设计并将其深入集成到手机中。”语音识别技术公司Nuance高级副总裁迈克尔汤普森这样说。
尽管苹果的Siri屡遭调侃,甚至被称为苹果最失败的产品之一,但苹果的投入有增无减。苹果甚至在麻省理工大学(MIT)附近组建了神秘办公室,用以做Siri语音识别技术的研发。俞凯透露,Siri音技术部门的人员保持在1:4的配比。1个人负责研究语音的输入输出,4个人负责自然语言处理,用以攻坚语音自然交互的困难。
在语音识别领域深耕的国内厂商也获得投资用以研发。早在2012年,思必驰获得联想和启迪等三方的联合投资。同年,中国移动通过其子公司以1363亿人民币的价格八股科大讯飞,占股15%,随后在当年12月联合推出智能请音门户产品“灵犀”,其可以实现语音打电话、发短信、查天气等功能。
捷通华声董事长张连毅在接受记者采访时表示,“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。如果我们能把握好现在的机会,好好练内动,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。”
下一个引爆点
“有时候可能就是熬,甚至也有可能未来是由于其他方向带动起来。”章继东说。他认为微信是其中一例。
在微信刚刚推出之时,很多人看到别的用户在对着手机“自言自语”时会觉得很纳闷,后来才发现是微信的语音对讲功能。而现在,人们已经对此习以为常。
章继东认为,下一个有可能引爆语音识别应用的是正越来越流行的可穿戴设备。比如手环可以把用户数据传到云端去,通过分析提出一个针对个人健康状况的建议。甚至,数据发现一个用户作息不规律,语音助手可以在用户需要休息的时候给出一个语音提示。
更现实的应用是智能手表等可穿戴设备,比如声纹识别和请音唤醒等功能可以成为典型应用。前者用户可以将自己的声音做为开启设备的密码,后者则在用户不接触设备的情况下唤醒设备。
“我们也在和芯片厂商合作,尝试将语音识别技术集成到智能可穿戴设备中,以此来降低功耗,扩大语音识别在可穿戴设备上的应用时间。”一家语音识别技术厂商的负责人说。
而易观国际分析师王珺也认为,随着智能终端的普及以及可穿戴设备、智能电视和车载设备等的发展,智能语音行业发展趋势见好。语音会是未来一种简单和常用的人机交互模式。特别是在场景化的环境中,如驾车时,不方便通过手或者眼球操作,语音是一种首选的方式。