我用声音“遥控”世界

来源 :科学Fans | 被引量 : 0次 | 上传用户:Alexandratj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  只听一声“启动!”主角对着机器发出了指令,紧接着,机器非常听话地发出“咔咔咔”的启动声,这是我们在很多科幻剧中都能见到的场景。如今,这种场景不再是我们的脑洞,相信大家都用手机和平板电脑感受过声音控制的爽快了。没错,语音作为一种便捷的交流方式,在其基础上发展出的声控,有着怎样令人惊叹的技术呢?
  声控技术的前世今生
  最早期的声控技术并不涉及具体的语音,而是只要感受到声音的存在,就可以实现开启和关闭的功能。在实现这项功能的过程中,发挥最主力作用的玩意儿叫作“传声器”。也许这个名字听起来有点陌生,但是它的绰号“麦克风”,你们肯定耳熟能详了。传声器的本质就是一种将声音信号转变为电信号的转换装置。发明它的是大名鼎鼎的“电话之父”——亚历山大·贝尔。
  传声器的原理并不复杂,它有一个非常灵敏并能够感受到声波微小振动的振膜:当振膜振动后,会带动与其相连的電磁铁不断开合,这样一来就产生了变化的电流,这就是由声音信号转变而来的电信号。电信号再经过一系列的放大、整流、滤波处理之后,既可以实现各种控制功能,也可以重新还原为人声语音。当然,除了电磁铁,还有电阻、电容、晶体等其他触发产生电信号的方法,更新颖的科技还在不断地开发中。
  虽然早期声控技术因为设计简单,触发条件也过于单一,如今已逐渐被淘汰。但我们依然能够在不少场合发现它的存在。比如楼道里的声控灯,为夜晚出行的居民们带来了莫大的方便。它的原理就是最简单的声控技术。
  从声音控制到语音控制
  当声控技术发展到一定阶段之后,有人就开始琢磨了:咱能不能再更进一步,实现语音控制呢?毕竟,多样化的语音能够实现更多操纵与控制的可能。可是人的声音各不相同,怎样才能让机器准确地识别出每个人说的话呢?
  其实早在计算机发明之前,关于语音控制的设想就已经被先驱者们提出了。早期的声码器就可以被视为一种语音识别仪器的雏形。1920年生产的玩具狗“电波雷克斯”(Radio Rex)可能是世界上最早的语音识别装置。这么看来,作为最原始的人工智能,它可能是“阿尔法狗”的老祖宗了……
  后来,经过声学家、语言学家和算法大神们的不懈努力,人们终于发现了语音可以被识别的方式:人类的语音具有两种彼此密切相关却又相对独立的特征,它们分别是语言特征和声学特征。所谓语言特征,就是指我们说的每一句话,都可以最终细分到一个字或一个词,而这些字词之间,有些存在非常高的相关性,有些呢,又几乎老死不相往来。比如,“尴”这个字后面,八成会跟着“尬”,但是后面跟着其他字比如“你”,这样的组合就几乎从未出现过。这涉及一个概率问题,可以通过概率统计的方式来找出其中的内在规律。
  而声学特征就更容易理解了。打个比方,三国时期的猛将张飞在当阳桥上一声断喝,吓退了多少曹兵。有些站得远的小兵,可能根本没看清对面那个大汉是谁,然而光听见声音,就知道是燕人张翼德了。这就是因为张飞的语音很有特点。这种特点包括“嗓门大、声音浑厚、带有河北一带口音”。是的,这三个特点就分别对应了声学特征的三大属性:物理属性、生理属性和社会属性,是不是一目了然呢?
  语音识别,横空出世
  当人类逐渐掌握了语音的奥秘之后,就开始挑战语音识别这个看上去高深莫测的黑科技了。20世纪60年代,计算机的快速发展推动了语音识别技术,科学家发明了许多关于它的理论,其中最有名的就是隐马尔可夫模型(HMM)(名字听起来真晦涩)。其实,当时绝大多数的工程师们看到这些理论公式时也是一头雾水。到了80年代,以“贝尔”命名的AT&T Bell实验室迈出了决定性的一步,他们把原本深奥无比的纯数学模型工程化,为应用开发打下了重要的基石。再到90年代,深度神经网络技术的突破性发展,让语音技术的发展突破了瓶颈。于是21世纪后的语音识别技术发展,就像是坐了火箭一样“蹭蹭蹭”地突飞猛进。
  有了这些基础,再来看语音识别的原理,好像也没有那么复杂嘛。简单地说就是当语音输入后,计算机进行两类特征提取,再将提取的特征值放进一个庞大的模型库里。在这个模型库中不断地进行训练和匹配,最终通过解码得到结果。用一个形象的比喻来说,就好比把一幅拼图打碎,再将每片拼图的形状和图案特征都放进一个拼图库里不断地组合,和原图对比,最终得到最接近原图的那一幅。当然了,这只是个粗浅的比喻,具体的实现还涉及神经网络机器学习、语言学、算法、编程等专业知识。
  “声控”可以无处不在
  声控技术是为了给人类带来便利的。因此,在我们生活中的各个角落都可以用到它。特别是一些不适合用手来操作的场合,例如开车。通过声控技术,我们只要开口说话,就能让车辆执行需要的动作:打开地图导航、开启空调、关闭车窗、呼叫紧急处理服务等等。毕竟,一边开车一边分心去找那些按钮是很危险的。还有现在智能设备上的交互系统,比如微软家的Cortana、三星家的S-voice、苹果家的Siri,都使用了语音识别的功能。我国也研发了自己的系统,比如搜狗和讯飞,根据中文口音、连读等独特的发音习惯,打造属于中国人的语音输入系统。
  随着科技的不断发展,声控技术只会越来越普及。我们可以预见,在未来的每个角落,我们都能用自己最熟悉的沟通方式和生活中的设备互动。这极大地增加了生活的便利性和幸福感,或许实现和人工智能的便捷交流也不再遥远。
其他文献
近年来,世界零售市场出现了四种趋势,这四种趋势可以概括为:(1)每个市场的零售模式都在向风格各异的定位方向发展;(2)各种模式和市场的革新以及流通力的改善都在迅速提高;(3)真正独具特色的
城市是人们聚居的地方,人口密度很大,人和人之间的接触和交流也非常频繁。这是城市的优点,但同时,这种居住方式也为疾病的传播提供了便利。要让人们安全、健康地在城市里生活
2015年年末的各大新闻网站上有这么一条新闻:美国埃迪塔医药公司表示,到2017年,或将通过“Crispr”最新转基因技术,帮助治疗人类眼部疾病,代表着“转基因人”2年后或出现。看着这条新闻,大家不妨大着胆子开开“脑洞”——这是不是意味着,随着技术的提高,未来的某一天,人类基因编辑技术和人类转基因技术终究会正式投入使用呢?(前者是敲除或者改变人体内的特定基因序列,不包含外源基因的插入;后者是将其它
论建立社会主义的现代化流通业金连清流通业的深化改革和进一步发展,应按照社会主义市场经济的要求,以“建设大市场,搞活大流通,发展大贸易”为指导思想,以“市场化、社会化、现代
<正> 一、当前国企改革的思路和目标 深化国有企业改革,已成为当前改革的重点、难点。国企改革的方向已明确,就是适应社会化大生产和市场经济的需要,建立现代企业制度。战略
如果在书桌或者一个精美的手工场景模型,想必能在工作或者学习之余,快速补充精力,提高工作学习效率。如果这个场景模型是自己手工自制的,那它带来的buff效果恐怕还会加倍。既
期刊
关于商业产权改革的浅见&#183;陈乃醒&#183;商业是国民经济的重要组成部分,搞好商业产权改革,对于促进国民经济的发展,具有十分重要的意义。一、商业产权改革的整体思路。商业产
五谷杂粮是最好的基础食物,也是最便宜的能量来源。成年人每天摄入250~400克谷物,就有利于预防相关慢性病的发生。各种各样的五谷杂粮,都有各自的最佳吃法,从而把其中的营养效用发挥得淋漓尽致。  糙米 常吃糙米能够起到降低脂肪和胆固醇的作用,糙米中含锌也很多,能够改善皮肤粗糙的情况。  在做糙米粥之前,要先把糙米浸泡30分钟左右,然后与做正常的米粥一样就可以了。糙米粥能刺激胃液的分泌,有助于消化和营
重视抓好国合商业企业扭亏增盈黄星伟国有和供销合作社商业(简称国合商业)企业经济效益下滑,亏损增加,经营日趋困难,问题已达到相当突出的程度。若不及时有效地扭转目前这个被动局
食盐具有杀菌作用,外科换药中常用它清洗伤口,以达到清创和消炎的目的。为此有人说早上喝一点淡盐水或每天适当地用淡盐水含漱咽部,可以起到消炎止痛的作用。其实这是一种误解。  用盐水漱口后约20分钟,口腔内的细菌数量会开始恢复,1个小时后细菌数量便恢复到漱口前的水平。显而易见,盐水将口腔中的细菌“斩尽杀绝”的同时,也使起防御危害作用的口腔黏膜受到破坏,这为细菌的迅速恢复创造了条件。如果长期用盐水漱口,牙