揭密微软语音翻译软件内幕

来源 :电脑爱好者 | 被引量 : 0次 | 上传用户:shb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  2012年11月,微软发布了一段视频(http://it.sohu.com/20121109/n357137973.shtml),微软首席研究官瑞克·拉希德(Rick Rashid)在视频中演示了他们正在研发的语音翻译软件的使用。这款软件不仅能将拉希德的现场演讲实时转换成文本显示在大屏幕上,而且能同步语音翻译成其他语言。借助软件,拉希德现场大秀了一段还算标准的中国普通话,声音中保留了拉希德的口音、音色和语调,听上去就像拉希德本人亲口所说。这正是微软研究院正在下大力气研发的语音翻译软件。
  让机器像人一样识别声音
  语音翻译(Speech translation)就是通过计算机系统实现持不同语言的说话人之间的话语翻译的过程,也称口语翻译或对话翻译。语音翻译技术一般包括三大部分:语音识别(输入)、机器翻译(转换处理)、语音合成(输出)。
  我们知道,OCR识别。可以将纸面上的文字转变成电脑可识别的文本,而语音识别与其类似,不过它是将人的说话语音转变成文本。人的语音是千差万别的,如不同的方言口音,说话时的重复、停顿、错误等,都增加了软件对语音的识别难度。人工神经网络是较好的解决方案之一。
  人工神经网络技术包括学习和识别两个过程。其中的学习过程,就是使用者按要求念出指定的文本,经过话筒转化为已知的语音信号作为学习样本,经过语音分段,从中求取语音的特征参数(这个过程反复多次,所以也称之为训练)。识别的过程则是,将待测的语音(同样经过话筒)进行语音分段,提取出特征参数,按一定的规则与学习所得的结果进行比对计算,最后得出识别的结果。可以看出,学习和识别的过程中,最关键的是语音特征参数的求取。
  如图所示,语音信号输入就是将人的声带发出的模拟波形语音转换成数字波形,这样才能被计算机处理,这跟OCR识别中先把文字扫描进电脑的道理是一样的。人说话时一般都是连贯的,语音信号分段,就是根据字与字之间、词与词之间极短的间隔(低音或无音),将话语分解成每一个语音段,最后通过各种算法对处理过的语音段进行分析。比如不少语音识别系统中采用倒频谱(Cepstrum)分析,将倒频谱参数作为语音的特征参数输入神经网络中。
  微软本次演示的软件,在人工神经网络技术上更进一步,采用了“深度神经网络”(Deep Neural Networks,DNNs)技术。
  语音识别系统的本质,实际上就是对语音组成单元(音素)进行建模,比如英语中表达发音方式的大约也就30个音素。而深层神经网络(DNNs)将音素进一步细分,分解成更小的元素(Senone),总数达到几千上万个。这项创新简化了大词汇量语音识别中的语音处理,大大降低了错词率。原理何在?其实从输入法的编码就可以想象得到,中文有几万字(相当于形式各变的语音),却只有26个字母键(相当于有限的音素)可用,于是造成了许多重码,输入时我们必须时时手工选择才不会出错。而如果用来编码的字母足够多,重码率肯定可以降低。
  不一样的语言里找出相似规则
  语音到文本的问题解决了,接下来是更大的难题:机器怎么翻译?语言千变万化,两种语言之间很难一一对应。前人为此探索出很多方法,可以归结为两大类型:基于语言规则的机器翻译法(包括直接翻译系统、转换系统、中间语言系统等)和基于语料库的机器翻译法(包括统计法、实例法等)。微软的语音翻译软件中机器翻译的部分,采用的是多引擎翻译,即多种翻译方法的整合,所以这里我们在两大类型中各挑一个典型的翻译方法来介绍。
  以中英文为例,像“This is a book”和“这是一本书”这么一一对应的句子少之又少,而且“a”和“一本”之间也不是完全对应。更多的是“The book which was given to him was a workbook of English grammar”这样的句子,如果一个单词一个单词对应翻译,就成了“这书哪个是给到他是一本手册的英语语法”根本就不通,实际意思是“送给他的是一本英语语法练习册”。看似很凌乱,但通过分析会发现,混乱的原因主要是两种语言对定语的处理习惯不同造成的。中文定语前置,而英语定语习惯后置。
  整个机器翻译过程可分为三个阶段:分析、转换、生成。因为自然语言有着太多的岐义性,所以这个过程也是对岐义的一步步消解。软件首先根据一系列算法对句子进行切分(即分词),并进行词性标注。词性对结构分析非常重要,比如上例中的代词which和介词of,通过词性判断可以确定最终翻译中的定语位置。一般词会有多个词性,所以还要通上下文分析排除有岐义的词性,得到明确判断。接下来是句法分析,一般是树形结构,由词到词组,由词组到句子。结构分析完成后进行转换,最后生成目标语言。当语法清晰了,程序算法也就容易实现。
  基于实例的机器翻译
  简单来说,基于实例的机器翻译系统中,存有一个对照的翻译实例语料库,实例库主要有两个字段,一个保存源语言句子(比如英文),另一个保存与之对应的译文(比如中文)。当要翻译某个句子时,系统先把这个句子与实例库进行比较,找出最相似的句子,模拟这个句子相对应的译文,最后输出译文。
  比如要翻译句子:
  (E1)He bought a book on physics.
  在语料库中查到相似的英语句子及其汉语译文是:
  (E2)He wrote a book on history.
  (C2)他写了一本关于历史的书。
  比较(E1)和(E2)两个句子,我们得到变换式:
  (T1)replace(wrote, bought) and replace(history, physics)
  将这个变换式中的单词都换成汉语就变成:
  (T2)replace(写 , 买) and replace(历史 , 物理)
  将(T2)作用于(C2),最后得到正确译文:
  (C1)他买了一本关于物理学的书。
  以上,我们推断了微软最新语音软件中的语音识别和机器翻译部分,最后的语音合成及输出,限于篇幅,这里就不再细述了。现在,大家都知道翻译软件都做了什么,以及它们为什么有时做得好有时做不好的原因了吧。(本文部分实例摘编自刘群《计算语言学》讲义)
其他文献
猴子市长贴出了招聘广告,要招收天下能人呢。红螃蟹和绿螃蟹也想去试一试自己的本领,她们会成功吗?    红hónɡ螃pánɡ蟹xiè和hé绿lǜ螃pánɡ蟹xiè是shì姐jiě妹mèi,她tā们men住zhù在zài山shān溪xī旁pánɡ。    听tīnɡ说shuō猴hóu子zi市shì长zhǎnɡ贴tiē出chū了le招zhāo聘pìn广ɡuǎnɡ告ɡào,要yào招zhāo收shōu天t
期刊
植物科学院请小燕子选一批绿色情报员。  一大早,小燕子就出发了,它刚飞出去就被小桃树拦住了。  “你能干什么?”小燕子问。  “我能预报农时。”桃树对小燕子说,“我一开花,农民伯伯就得忙着种谷子。”  “好,算你一个。”燕子说。  小燕子飞过一片胡杨树林,胡杨树叫住了它。小燕子问:“你有什么本领?”  “我能报告地下水。”胡杨树说,“不信?顺着我的根挖下去看看!”  这时,山坡上的篦子草又喊住了小
期刊
纤薄的金属机身  东芝U40t的机身以拉丝金属材质为主,整体做工相当出众,保证了纤薄机身架构的稳固与安全。作为一款14英寸的超极本,21mm的厚度和2kg的重量谈不上极致纤薄,但U40t却在此基础上融入了支持10点操作的触控屏幕(触屏和相关电路单元会增加屏幕部分的厚度),并覆盖了一块高透光性的防划玻璃和防指纹镀膜涂层,可以有效防止触屏易沾染指纹的缺陷。  U40t采用了超大尺寸的一体式触控板,便于
期刊
大屏带来的震撼视野  大黄蜂4G采用了和三星Note 2一般大小的5.5英寸IPS屏幕,色彩和可视角度表现还算理想,可以为用户营造出不俗的视觉体验空间。为了控制成本,大黄蜂4G并没有盲目地追求1080P,而是采用了720P分辨率的屏幕,267ppi足够细腻且对硬件资源和电池的消耗也更为合理。如果天语在系统层面可以融入针对单手操作的优化(比如手势)相信会受到更多用户的欢迎。  领先一步的极速4G  
期刊
机智的长颈鹿等    长颈鹿博学多才,在森林里深受小动物们的尊敬和喜爱。于是,森林里的老虎大王开始担心起来,他怕有一天自己的位置被长颈鹿取代了。他得想个办法除掉长颈鹿。于是,这一天老虎叫来了长颈鹿,对他说:“长颈鹿,听说你数学学得不错,今天本大王想见识一下,可以吗?”长颈鹿无奈地点点头,他明白如果自己答得不好,让大王不高兴了,自己是要招来横祸的。  “河边有40只羊,后来又来了30只,被狼叼走了7
期刊
你能根据意思选填成语吗?  天涯海角不毛之地  天壤之别一字千金   无米之炊一日三秋      1.最遥远的地方——()  2.最悬殊的区别——()  3.最昂贵的稿费——()  4.最难做的饭——()  5.最短的季节——()  6.最荒凉的地方——()    小朋友,下面这些描写夏天的成语,哪些是你的老朋友,哪些是新朋友呢?你还会哪些描写夏天的成语呢?写在横线上吧。      烈日当空炎火夏
期刊
在动物世界里,许多动物拥有“特异功能”呢。不信?你看,池塘里的大泥鳅还会观测气象呢!      一天早晨,小公鸡蹦蹦跳跳出去玩。它路过池塘时,突然听见水里的大泥鳅叫它。小公鸡问:“什么事呀?”  大泥鳅说:“今天会下很大的雨,快回家吧。”小公鸡抬头看了看天。太阳红红的,小鸟在天上飞来飞去。这哪会有雨啊!  “我才不信呢。”小公鸡说完就去玩了。  小公鸡玩得很高兴。不知什么时候太阳不见了,一阵大风刮
期刊
在一个偏僻的山谷里,住着小熊尼克和它的妈妈,尼克没有朋友。每天只能和花花草草玩着再无聊不过的游戏。  一天,尼克对熊妈妈说:“妈妈,我没有朋友,度过一天就像度过一年一样,你能给我找个朋友吗?”熊妈妈说:“放心吧,宝贝,我会给你找到朋友的。”  第二天,尼克发现家门前多了好多的树苗,就好奇地问:“外面的树苗是从哪里来的?”妈妈说:“是我栽的。”尼克又问:“为什么栽啊?”  妈妈说:“你不是让我帮你找
期刊
暑假,叮当猫参观了北京故宫博物馆的钟表馆,并被钟表馆里一件美丽的藏品深深地吸引了。他还特地拍下了美丽的照片来大家分享,当然还有其中隐藏的数学知识。    右边是北京故宫博物馆收藏的一个怀表,你发现它的特殊之处了吗?对,就是表盘上的数字。咦,这可不是我们熟悉的阿拉伯数字,是什么呢?哈哈,让我叮当猫来告诉你。这些是罗马数字。接下来,我就来给你们介绍一下罗马数字。  听名字你可能会想,罗马数字是不是跟意
期刊
八只脚,抬面鼓,两把剪刀鼓前舞,生来横行又霸道,嘴里常常吐泡泡。哈哈,小朋友们快活动活动手指头,折一只威风凛凛的螃蟹将军吧!    1.沿虚线对折。    2.沿虚线再对折。    3.沿箭头方向展开。    4.沿箭头方向折叠。    5.整体翻转。    6.按步骤3、4,将另外一边展开折好。    7.沿虚线按箭头方向,将两个角向内折好。    8.沿虚线按箭头方向折好。    9.整体翻转
期刊