论文部分内容阅读
只听一声“启动!”主角对着机器发出了指令,紧接着,机器非常听话地发出“咔咔咔”的启动声,这是我们在很多科幻剧中都能见到的场景。如今,这种场景不再是我们的脑洞,相信大家都用手机和平板电脑感受过声音控制的爽快了。没错,语音作为一种便捷的交流方式,在其基础上发展出的声控,有着怎样令人惊叹的技术呢?
声控技术的前世今生
最早期的声控技术并不涉及具体的语音,而是只要感受到声音的存在,就可以实现开启和关闭的功能。在实现这项功能的过程中,发挥最主力作用的玩意儿叫作“传声器”。也许这个名字听起来有点陌生,但是它的绰号“麦克风”,你们肯定耳熟能详了。传声器的本质就是一种将声音信号转变为电信号的转换装置。发明它的是大名鼎鼎的“电话之父”——亚历山大·贝尔。
传声器的原理并不复杂,它有一个非常灵敏并能够感受到声波微小振动的振膜:当振膜振动后,会带动与其相连的電磁铁不断开合,这样一来就产生了变化的电流,这就是由声音信号转变而来的电信号。电信号再经过一系列的放大、整流、滤波处理之后,既可以实现各种控制功能,也可以重新还原为人声语音。当然,除了电磁铁,还有电阻、电容、晶体等其他触发产生电信号的方法,更新颖的科技还在不断地开发中。
虽然早期声控技术因为设计简单,触发条件也过于单一,如今已逐渐被淘汰。但我们依然能够在不少场合发现它的存在。比如楼道里的声控灯,为夜晚出行的居民们带来了莫大的方便。它的原理就是最简单的声控技术。
从声音控制到语音控制
当声控技术发展到一定阶段之后,有人就开始琢磨了:咱能不能再更进一步,实现语音控制呢?毕竟,多样化的语音能够实现更多操纵与控制的可能。可是人的声音各不相同,怎样才能让机器准确地识别出每个人说的话呢?
其实早在计算机发明之前,关于语音控制的设想就已经被先驱者们提出了。早期的声码器就可以被视为一种语音识别仪器的雏形。1920年生产的玩具狗“电波雷克斯”(Radio Rex)可能是世界上最早的语音识别装置。这么看来,作为最原始的人工智能,它可能是“阿尔法狗”的老祖宗了……
后来,经过声学家、语言学家和算法大神们的不懈努力,人们终于发现了语音可以被识别的方式:人类的语音具有两种彼此密切相关却又相对独立的特征,它们分别是语言特征和声学特征。所谓语言特征,就是指我们说的每一句话,都可以最终细分到一个字或一个词,而这些字词之间,有些存在非常高的相关性,有些呢,又几乎老死不相往来。比如,“尴”这个字后面,八成会跟着“尬”,但是后面跟着其他字比如“你”,这样的组合就几乎从未出现过。这涉及一个概率问题,可以通过概率统计的方式来找出其中的内在规律。
而声学特征就更容易理解了。打个比方,三国时期的猛将张飞在当阳桥上一声断喝,吓退了多少曹兵。有些站得远的小兵,可能根本没看清对面那个大汉是谁,然而光听见声音,就知道是燕人张翼德了。这就是因为张飞的语音很有特点。这种特点包括“嗓门大、声音浑厚、带有河北一带口音”。是的,这三个特点就分别对应了声学特征的三大属性:物理属性、生理属性和社会属性,是不是一目了然呢?
语音识别,横空出世
当人类逐渐掌握了语音的奥秘之后,就开始挑战语音识别这个看上去高深莫测的黑科技了。20世纪60年代,计算机的快速发展推动了语音识别技术,科学家发明了许多关于它的理论,其中最有名的就是隐马尔可夫模型(HMM)(名字听起来真晦涩)。其实,当时绝大多数的工程师们看到这些理论公式时也是一头雾水。到了80年代,以“贝尔”命名的AT&T Bell实验室迈出了决定性的一步,他们把原本深奥无比的纯数学模型工程化,为应用开发打下了重要的基石。再到90年代,深度神经网络技术的突破性发展,让语音技术的发展突破了瓶颈。于是21世纪后的语音识别技术发展,就像是坐了火箭一样“蹭蹭蹭”地突飞猛进。
有了这些基础,再来看语音识别的原理,好像也没有那么复杂嘛。简单地说就是当语音输入后,计算机进行两类特征提取,再将提取的特征值放进一个庞大的模型库里。在这个模型库中不断地进行训练和匹配,最终通过解码得到结果。用一个形象的比喻来说,就好比把一幅拼图打碎,再将每片拼图的形状和图案特征都放进一个拼图库里不断地组合,和原图对比,最终得到最接近原图的那一幅。当然了,这只是个粗浅的比喻,具体的实现还涉及神经网络机器学习、语言学、算法、编程等专业知识。
“声控”可以无处不在
声控技术是为了给人类带来便利的。因此,在我们生活中的各个角落都可以用到它。特别是一些不适合用手来操作的场合,例如开车。通过声控技术,我们只要开口说话,就能让车辆执行需要的动作:打开地图导航、开启空调、关闭车窗、呼叫紧急处理服务等等。毕竟,一边开车一边分心去找那些按钮是很危险的。还有现在智能设备上的交互系统,比如微软家的Cortana、三星家的S-voice、苹果家的Siri,都使用了语音识别的功能。我国也研发了自己的系统,比如搜狗和讯飞,根据中文口音、连读等独特的发音习惯,打造属于中国人的语音输入系统。
随着科技的不断发展,声控技术只会越来越普及。我们可以预见,在未来的每个角落,我们都能用自己最熟悉的沟通方式和生活中的设备互动。这极大地增加了生活的便利性和幸福感,或许实现和人工智能的便捷交流也不再遥远。
声控技术的前世今生
最早期的声控技术并不涉及具体的语音,而是只要感受到声音的存在,就可以实现开启和关闭的功能。在实现这项功能的过程中,发挥最主力作用的玩意儿叫作“传声器”。也许这个名字听起来有点陌生,但是它的绰号“麦克风”,你们肯定耳熟能详了。传声器的本质就是一种将声音信号转变为电信号的转换装置。发明它的是大名鼎鼎的“电话之父”——亚历山大·贝尔。
传声器的原理并不复杂,它有一个非常灵敏并能够感受到声波微小振动的振膜:当振膜振动后,会带动与其相连的電磁铁不断开合,这样一来就产生了变化的电流,这就是由声音信号转变而来的电信号。电信号再经过一系列的放大、整流、滤波处理之后,既可以实现各种控制功能,也可以重新还原为人声语音。当然,除了电磁铁,还有电阻、电容、晶体等其他触发产生电信号的方法,更新颖的科技还在不断地开发中。
虽然早期声控技术因为设计简单,触发条件也过于单一,如今已逐渐被淘汰。但我们依然能够在不少场合发现它的存在。比如楼道里的声控灯,为夜晚出行的居民们带来了莫大的方便。它的原理就是最简单的声控技术。
从声音控制到语音控制
当声控技术发展到一定阶段之后,有人就开始琢磨了:咱能不能再更进一步,实现语音控制呢?毕竟,多样化的语音能够实现更多操纵与控制的可能。可是人的声音各不相同,怎样才能让机器准确地识别出每个人说的话呢?
其实早在计算机发明之前,关于语音控制的设想就已经被先驱者们提出了。早期的声码器就可以被视为一种语音识别仪器的雏形。1920年生产的玩具狗“电波雷克斯”(Radio Rex)可能是世界上最早的语音识别装置。这么看来,作为最原始的人工智能,它可能是“阿尔法狗”的老祖宗了……
后来,经过声学家、语言学家和算法大神们的不懈努力,人们终于发现了语音可以被识别的方式:人类的语音具有两种彼此密切相关却又相对独立的特征,它们分别是语言特征和声学特征。所谓语言特征,就是指我们说的每一句话,都可以最终细分到一个字或一个词,而这些字词之间,有些存在非常高的相关性,有些呢,又几乎老死不相往来。比如,“尴”这个字后面,八成会跟着“尬”,但是后面跟着其他字比如“你”,这样的组合就几乎从未出现过。这涉及一个概率问题,可以通过概率统计的方式来找出其中的内在规律。
而声学特征就更容易理解了。打个比方,三国时期的猛将张飞在当阳桥上一声断喝,吓退了多少曹兵。有些站得远的小兵,可能根本没看清对面那个大汉是谁,然而光听见声音,就知道是燕人张翼德了。这就是因为张飞的语音很有特点。这种特点包括“嗓门大、声音浑厚、带有河北一带口音”。是的,这三个特点就分别对应了声学特征的三大属性:物理属性、生理属性和社会属性,是不是一目了然呢?
语音识别,横空出世
当人类逐渐掌握了语音的奥秘之后,就开始挑战语音识别这个看上去高深莫测的黑科技了。20世纪60年代,计算机的快速发展推动了语音识别技术,科学家发明了许多关于它的理论,其中最有名的就是隐马尔可夫模型(HMM)(名字听起来真晦涩)。其实,当时绝大多数的工程师们看到这些理论公式时也是一头雾水。到了80年代,以“贝尔”命名的AT&T Bell实验室迈出了决定性的一步,他们把原本深奥无比的纯数学模型工程化,为应用开发打下了重要的基石。再到90年代,深度神经网络技术的突破性发展,让语音技术的发展突破了瓶颈。于是21世纪后的语音识别技术发展,就像是坐了火箭一样“蹭蹭蹭”地突飞猛进。
有了这些基础,再来看语音识别的原理,好像也没有那么复杂嘛。简单地说就是当语音输入后,计算机进行两类特征提取,再将提取的特征值放进一个庞大的模型库里。在这个模型库中不断地进行训练和匹配,最终通过解码得到结果。用一个形象的比喻来说,就好比把一幅拼图打碎,再将每片拼图的形状和图案特征都放进一个拼图库里不断地组合,和原图对比,最终得到最接近原图的那一幅。当然了,这只是个粗浅的比喻,具体的实现还涉及神经网络机器学习、语言学、算法、编程等专业知识。
“声控”可以无处不在
声控技术是为了给人类带来便利的。因此,在我们生活中的各个角落都可以用到它。特别是一些不适合用手来操作的场合,例如开车。通过声控技术,我们只要开口说话,就能让车辆执行需要的动作:打开地图导航、开启空调、关闭车窗、呼叫紧急处理服务等等。毕竟,一边开车一边分心去找那些按钮是很危险的。还有现在智能设备上的交互系统,比如微软家的Cortana、三星家的S-voice、苹果家的Siri,都使用了语音识别的功能。我国也研发了自己的系统,比如搜狗和讯飞,根据中文口音、连读等独特的发音习惯,打造属于中国人的语音输入系统。
随着科技的不断发展,声控技术只会越来越普及。我们可以预见,在未来的每个角落,我们都能用自己最熟悉的沟通方式和生活中的设备互动。这极大地增加了生活的便利性和幸福感,或许实现和人工智能的便捷交流也不再遥远。