中文语音识别领域的激战

来源 :计算机应用文摘·触控 | 被引量 : 0次 | 上传用户:xiangqiuli8609
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  早前,业界普遍认为语音识别领域将会催生出巨头公司。在英语领域,作为搜索巨头的Google逐渐占据了行业的主导权。而在中文领域,语音识别行业正面临新一轮的洗牌,科大讯飞、搜狗和百度等纷纷将目光瞄准了语音识别技术。重兵布局的各方谁会成为中国语音识别领域标准的制定者,并占据行业主导权呢?
  技术为王。百度与微软双雄鼎立
  去年10月中旬,微软人工智能与研究部门的一个研究者和工程师团队报告出他们的语音识别系统实现了和专业速录员相同甚至更低的误字率(word error rate,简称WER),降到了5.9%,而一个月前这一数字还是6.3%。微软首席语音工程师黄学东表示,“我们已经达到了人类水平,这是一项历史性的成就。”
  事实上,在当前的发展脉络下,语音识别的准确率和通用性的本质就在于三个方面:数据量的多少、算法的优劣和计算能力的水平。在这三个方面的比拼中,互联网巨头拥有很大的优势,因为它们拥有最多的数据,最顶级的人才以及最强大的计算能力水平。所以当Google开放语音识别API后,在英语语音识别的市场中,Google比Nuance有更大的优势。而在中文市场中,百度也扮演着和Google在英语市场相似的角色,甚至更为出色。
  2015年12月,在Deep Speech 2首次发布时,吴恩达称其识别精度已经超越了Google Speech API、wit.ai、微软的Bing Speech以及苹果的Dictation至少10个百分点。2016年2月,百度表示Deep Speech 2的短语识别误字率已经降到了3.7%。
  群雄逐鹿,中文领域的生死战
  毫无疑问,微软和百度的语音识别技术水平都很惊人,但一项技术终究要变成产品和服务才能实现价值,所以在英语语音识别市场占据主导地位的是Google而非微软。在中文语音识别市场,这方面做得最好的公司莫过于科大讯飞。
  Google是最早在全球范围内大规模使用深度神经网络的公司,而科大讯飞是中国第一个在商用系统里使用深度神经网络的公司。2010年,科大讯飞率先将语音输入功能引入到了手机当中,截至2016年6月,《讯飞输入法》已经拥有3.6亿用户,活跃用户更是超过1亿人,其中,语音用户渗透率高达59%。在国内语音行业,科大讯飞已是不折不扣的龙头企业。而不久之前,《讯飞输入法》还因在锤子手机发布会上的惊艳表现备受关注。
  在2016年10月18日晚上的锤子手机发布会上,罗永浩现场展示了科大讯飞97%正确率的语音输入。一夜之间,科大讯飞几乎成了所有科技媒体人所讨论的话题和关注的焦点。其实,除了锤子手机的Smartisan OS之外,华为、小米和魅族等厂商的语音服务或者输入法都在使用或曾经使用过科大讯飞的技术。据悉,在未来的三年中,科技巨头英特尔也将与科大讯飞合作,一起研究机器学习和深度学习项目。
  除了科大讯飞,国内在语音识别领域有所建树的大公司还有不少。在2016年4月中旬举行的“云栖大会南京峰会”上,阿里云总裁胡晓明率先进行演讲,阿里云的“小Ai”机器人全程对胡晓明的语音进行了实时翻译文字,这也是阿里巴巴第一次对外公布阿里云人工智能的能力。其实,这并非“小Ai”首次展示自己的速记能力。在阿里云2016年年会上,“小Ai”曾打败了世界中文速记大赛亚军。阿里云人工智能技术专家陈一宁透露,“在阿里云大数据平台数加上,智能语音交互产品就是采用的“小Ai”的技术。目前,阿里云还在探讨同各类直播平台的合作,以后所有的直播都能具备实时加字幕功能。
  除了阿里云,搜狗也是国内语音识别领域不容忽略的一方诸侯。在去年11月中旬举行的第三届世界互联网大会上,搜狗CEO王小川首秀搜狗“黑科技”——机器同传,展示了实时机器翻译技术,将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示,引起轰动。这是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,效果可靠、准确率已接近人类同传翻译结果。而在近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊和日常口语等领域,采用5分制人工评分能达到4.4分,走向实用化。目前,搜狗语音识别准确率已超过97%,识别速度达到了400字每分钟。   除了科大讯飞、阿里云和搜狗等互联网大佬,国内还有不少专注自然语言处理技术的创业公司,如云知声和思必驰等。云知声CEO黄伟表示,云知声的识别准确率已经能达到97%,属于业内一流水平。相比之下,思必驰做的是语音对话交互技术的整体解决方案,而不是单纯的语音识别解决方案。因此在场景应用中,思必驰的系统和科大讯飞的系统多有比较,可相互媲美。
  毫无疑问,面对拥有领先优势的科大讯飞,以及阿里云和搜狗等实力雄厚的互联网大佬,还有云知声和思必驰这类不容小觑的创业公司,百度虽然拥有做人的技术和财力,但想在中文语音识别领域独霸江湖仍有不小的难度。未来难测,深挖场景是必经路
  未来5年,语音市场将显著增长,到2020年,全球语音市场规模预计将达到191.7亿美元。语音识别之所以潜力巨大,很大程度上源于它是最便捷的人机交互方式,也是人工智能的重要入口。近年来,国内外互联网巨头们都在发力人工智能,虽然各自的侧重点不同,但都极为倚靠语音识别技术。毕竟,语音输入本身只是一个途径,它最终仍然要和实际操作相结合。
  语音识别技术要在现实生活中落地,必须与场景结合,这需要吸纳来自各种场景的数据去训练语音技术,让其更加智能化。这也是为什么“微软小冰”每周都要上线新功能,努力刺激用户贡献更多聊天数据,而科大讯飞则不断扩大包括长虹等智能电视在内的合作名单,吸纳来自入口级硬件的数据。数据显示,与讯飞人工智能连接的应用,日均访问量为30亿次。
  与科大讯飞相比,百度在海量用户数据和人工智能技术上的优势,能让他们迅速发展出优秀的语音智能。从这个角度来说,百度的发展道路比科大讯飞更宽。在百度生态内部,目前语音技术的落地渗透在《百度地图》、《手机百度》和《百度输入法》等产品中。而在外部,截至2016年年中,使用百度语音技术的APP数量超过8万款,大型合作厂商包括中兴、魅族和联想等。百度语音如今能获取的数据规模非常庞大,据吴恩达透露,在线识别请求量2016年每天达到1.4亿次,在线语音合成请求量则达到2亿次。
  除依靠产品收集用户数据之外,各大厂商还在积极与数据资源商合作,以更快捷地获得庞大的数据支撑。随着这些数据的输入,每分每秒,人工智能的模型会迅速迭代和升级,就像Google的AlphaGo在每一场棋局的每一步对决中都在学习。
  作为底层技术,语音识别未来的发挥空间极大,将广泛出现在手机、智能家居、医疗、教育和司法等各种场景。当然,这还有很长的一段路要走,想要在这条路上脱颖而出的公司,—方面要面对同行的生死竞争,另—方面还需努力解决语音识别技术仍然存在的一些瓶颈。
  小编观点
  目前,国内语音识别领域仍然是群雄混战的局面,短期来说,科大讯飞仍有着明显领先优势。然而,随着人工智能的进步,语音识别技术逐渐往大规模产业化发展时,公司的技术生态会非常重要,百度这类互联网巨头将迎来快速发展期。在核心技术和能力的比拼下,语音识别也将进入巨头崛起,传统语音公司稍显没落的时代。
其他文献
近30余年来,世界奶牛改良速度不断攀升,效果日益显著.例如,美国黑白花奶牛产奶量的平均年度遗传进展:上世纪60年代37kg,70年代79kg,80年代102kg,90年代115.5kg.人类已进入21
语文是一个美妙的世界,作为一名初中语文教师,应根据初中生的年龄特征,结合语文学科的自身特点,充分发挥初中语文的美育功能,引导学生发现、感受语文世界的美,提高学生的审美
不孕症是造成奶牛繁殖力降低的主要原因.牛不孕症种类很多[1],如卵巢机能疾病有卵泡囊肿、黄体囊肿、持久黄体、安静发情、发情不排卵、卵巢静止等类型,生殖道疾病有子宫内膜
统计表明,1998年美国奶牛饲养总头数下降到940万头,而牛乳产量继续呈上升趋势.在饲料配方中使用较多的肉骨粉,而禁止配入其他哺乳类蛋白源,进一步提高了奶牛产乳量、乳蛋白质
物理新课程标准要求利用实验教学,提高学生的实验技能,培养学生的创新能力、独立思考能力以及探索精神。文章就实验教学要有利培养学生的物理创新能力,激发学生的创新动机,培养探
瘤胃真菌是瘤胃微生物区系中一人种功能菌,有着自身的分类学位置和生活周期,在反刍动物瘤胃内纤维物质消化过程中发挥重要作用,并参与瘤胃内淀粉及蛋白质的降解过程,本文综述了瘤
胚胎干细胞最重要的生物学特征是具有发育全能性.要想获得具有发育全能性的胚胎干细胞,必需选择适当胚龄的胚胎和用正确的分化抑制物.本文从鼠类胚胎干细胞的获得、维持及胚
5月16日,针对近期发生的一系列无人机扰航事件,中国民航局相关负责人表示,将从6月1日起对民用无人机实施实名登记注册。中国民航局空管行业管理办公室副主任张瑞庆表示,民用无人
生成性教学是新课程改革倡导的一个新策略,它要求用生成的观点看待课堂教学。初中科学新课程教学强调初中科学的学习过程是一个主动建构知识、发展能力、形成正确情感态度与价