谁的耳朵更灵敏?

来源 :新电脑 | 被引量 : 0次 | 上传用户:shanchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  我们的耳朵是一个高度复杂的系统,同时也是一个高精度的测量“仪器”。普通人的每只耳朵都有约15 500个毛细胞,可以分辨出400 000余种音调。经过专门训练的人甚至可以直接判断他所听到声音的音调值。但是,人类的听觉有一定的频率范围限制。举例来说,在水下负责录制鲸咏(又名鲸歌)的潜水员需要佩戴专业的扩音收音装置,因为鲸咏的频率最高可达280KHz,而人类可以听见的频率范围是16Hz~20KHz。虽然专业的扩音收音装置可以录制到更广的声音频率范围,但是只有人类可以专注于某种特定的声音,并且准确定位声音的来源。
  耳朵:立体声定位
  无论声音来自前面、后面,还是侧面,双耳都可以迅速定位其来源和距离。人耳的两种关键能力正在被科学家们迁移到机器人身上,一种是对于耳间时间差(Interaural Time Difference,ITD)的处理,一种是对于耳间声压差(Interaural Intensity Difference,IID)的处理。由于人的双耳分布在头部两侧,所以头部在声音传递的过程中形成了天然的障碍。因此两只耳朵会获得不同的声压,而且大部分声音不会同时进入双耳,例如来自左侧的声音会先进入左耳,然后继续以340m/s的速度进入右耳,形成时间差。在声学上,这种现象被称为“头影效应”(Head-Shadow Effect)。慕尼黑科技大学仿生学教授Werner Hemmert博士表示:“人耳可以分辨出0.01ms的时差,但是由于软件的处理速度较慢,所以目前的机器人只能精确到10ms级别。”
  柏林洪堡大学神经机器人实验室主任Manfred Hild博士对CHIP杂志表示:“人的立体声听觉也受到耳朵肌肉和肩膀的影响。科学家们已经有意识地将人耳的完整结构运用于人工智能系统。”因此,很多机器人的头部设计与人的大小和形状相当,尽可能地以人类的方式利用头部两侧的麦克风获取立体声信号。
  当机器人身处预先专门准备好的测试环境中时,可以利用立体声定位功能,像人一样快速定位声源。但是,当机器人身处同人一样的真实日常生活环境中时,声源定位就不是一件简单的事情了。机器人与人类最关键的区别就是缺乏环境适应和理解能力。一个我们熟知的现象就是鸡尾酒效应:当许多人在聚会场所聊天,同时还伴随着从音响中散播出来的背景音乐的时候,人类依然可以仅专注于某一个对话。但是这种场合对于机器而言就是难以逾越的挑战了。由于机器人无法确定哪个声源是真正需要关注的而无法快速过滤掉所有无关的频率,所以此时的环境里只有一种不可识别的声音——噪音。
  人工智能:听觉的妥协
  科学家们根据应用需求的不同,使用了很多巧妙的方法使机器人获得更好的听觉表现。其中,很多人工智能研究中使用到的成熟方法,已经成功转换为市场上的可行解决方案。有几项优秀的音频过滤方案已经开始在移动终端设备、车载免提装置和远程会议系统上崭露头角。但是柏林洪堡大学的机器人专家Hild告诉我们:“目前来看效果并非总是令人满意,例如汽车发动机的声音会干扰到车厢内的整个声音频带,所以无法通过频率过滤技术简单地高尔夫其消除掉,必须配合声源定位技术才可以更好地工作。”
  最新解决方案就是使用盲信号分离(Blind Signal Separation)技术,制造商采用多个分散放置的麦克风协助录制令人烦恼的噪音,然后将其过滤掉,只留下司机的声音。智能手机制造商也使用这个原理,通过机身背部的麦克风与机身正面的麦克风配合过滤掉杂音。慕尼黑科技大学仿生学教授Hemmert说:“我们目前的研究遇到了瓶颈,虽然新的解决方案取得了很大的进步,但是距离真正突破性的进展,还有很长的路要走。”其实,最关键的原因是日常生活中的噪音几乎是无规律的,而通过人工智能实现的机器耳朵无法适应不同的情景。
  对于语音识别程序而言,这个过程并没有什么障碍,通常只要将麦克风至于嘴下即可,此时系统可以识别最大的声源。但是语音识别程序,尤其是非特定语音识别系统,比如导航系统面临着另一个很有难度的问题,就是它们需要识别讲话者的嗓音,保证输入的准确度,然后结合庞大的语义数据库和纠错能力,将语音转换为可理解的文字。
  结论
  Hild对目前的进展并不乐观,他说:“我们必须回头审视过去的发展历程,理解只有机器人可以并行处理所有信号数据,并根据这些数据进行综合判断的时候才可能取得重大的突破。”其实,即使这样也远远不够,因为我们并非仅通过耳朵听声音,还会通过眼睛定位对话者、移动自己的头部找到最好的试听位置。因此人工智能机器人必须将动力系统、声音信号和视觉信号结合起来,才能有机会拥有人类这样敏锐的耳朵。
其他文献
投影机正在面临前所未有的变革,小型化已经是大势所趋,未来它很有可能代替显示器或电视成为我们主要的显示设备,但要实现这些还要仰仗最近不断涌现的新技术。    在今年年初的美国消费电子展上,TI正式对外推出了仅有笔尖大小却能提供满足720p标准分辨率的DMD成像芯片。这引起了业界极大的关注,因为这可能使微型投影机拥有更高的实用价值,成为市场中一股新崛起的力量。然而,事实并没有那么简单,自该芯片发布至今
期刊
怪诞荒谬的拼贴画、富有表现力的摄影作品、幽默搞笑的漫画和你卧室里布置的艺术品,这些独特的图片都来自于编辑工具永无疆界的创造力。    任何人都可以“咔嚓”一张照片,但是要想让你的照片看起来与众不同、独一无二甚至是让人疯狂,却是个难题。专业图像编辑软件确实可以实现你几乎所有的点子,但这只能是那些经过严格训练的专业人员才能完全掌握并实现的。本文介绍的图片工具更适合于业余的摄影爱好者。它的好处就是可以让
期刊
本文对四川居民收入与财富分配的问题进行了研究。文章围绕四川国民财富分配现状、国民财富分配差距拉大的成因、深化收入分配制度改革,缩小城乡居民收入差距等进行了阐述。
本文对我国收入分配中的马太效应进行了探讨。文章围绕当前我国收人分配失衡的特征、全面认识现阶段我国收人分配的失衡问题、合理的收人差距与建设和谐社会等方面进行了阐述
数字影像的发展使人们对高品质、大尺寸显示画面的需求与日俱增,投影机成为满足这种观看需求的最主要设备.特别在商用及教育领域,由于经常需要进行大画面的内容演示,对投影机
期刊
本文对卫生行业发展与经济发展所处阶段的关系进行了研究。文章认为,当一个地区的人均GDP从下中等收入国家水平进入到上中等收入国家水平时,其医疗卫生行业的发展将会达到一个
本文对内蒙古居民收入与分配问题进行了研究。文章围绕内蒙古城乡居民收人与分配的主要问题、造成内蒙古居民收人分配与收人差距扩大的成因、推进公平有效的分配机制的建立等
本文对内蒙古中西部地区经济、金融和谐发展进行了研究。文章围绕西方经济增长极理论中的“回波效应”与“扩散效应”、内蒙古中西部地区的经济增长极及“回波效应”与“扩散
本文对成都市经济发展过程中的税收问题进行了研究。文章围绕税收与经济发展的相关分析、税收收入超经济增长的影响及因素分析、宏观税负偏低的原因分析及对策等进行了阐述。
在2011年CES大展上崭露头角的Android双核智能手机正在逐渐走入市场,成为Android领域的新旗舰.目前市场上的主流厂商纷纷推出了搭配双核处理器的产品,一些国内厂商也纷纷加入
期刊