论文部分内容阅读
在嘈杂的环境中,比如拥挤的咖啡店或繁忙的城市街道,我们的大脑有着非凡的本领,能够分辨出某一个人的声音。即使是最先进的助听器,也难以做到这一点。但是现在,哥伦比亚大学的工程师开发了一项新的AI技术,能够精准放大群体内发出的某种声音,这项突破性的技术进展也有望促进新型助听器的开发。
研究人员开发的这项实验技术,能够模拟大脑探测和放大多个声音中任意一个声音的天生能力,并且研究人员开发出一种由大脑控制的,可以“读心”的助听器,就像一个声音自动过滤器,监测佩戴者的脑电波,并放大他们想要听到的声音。
虽然这项技术仍处于早期发展阶段,但其意义仍极为重要,不仅有助于人们开发更好的助听器,而且能够帮助佩戴者跟周围的人进行无缝、高效的交谈。相关成果发表在近日的Science Advances(《科学进展》)中。
“负责处理声音的大脑区域极其敏感和强大,它似乎可以毫不费力地放大一个声音,而当前的助听器与之相比则相形见绌。”哥伦比亚大学莫蒂默·祖克曼大脑行为研究所学术带头人、哥伦比亚大学工程学院副教授Nima Mesgarani是该论文的通讯作者,他表示,“通过创造一种能够模拟大脑本身能力的设备,我们希望我们的工作将促进技术的进步,使全世界数亿听力受损的人能够像他们的朋友和家人一样轻松地与人交流。”
现代助听器在放大语音的同时,在抑制某些类型的背景噪音(如交通噪音)方面非常出色,但它们难以提高多个声音中其中一个声音的音量。这个问题跟喧闹的派对中混在一起的嘈杂声音类似,所以科学家们称之为鸡尾酒会问题,而在拥挤嘈杂的地方,传统的助听器也会同时放大所有声音,严重阻碍佩戴者的有效交谈能力。而这次研究人员开发的脑控助听器,不仅仅依靠像麦克风这样的外部声音放大器,还能够监测倾听者自身的脑电波,此前研究人员已经发现当两个人互相交谈时,说话者的脑电波开始类似于倾听者的脑电波。
利用这些知识,研究小组将强大的语音分离算法与模仿大脑自然计算能力的神经网络相结合,创造了一个系统。这个系统首先从一个群体中分离出单个说话者的声音,然后将每个说话者的声音与倾听者的脑电波进行比较。如果说话者的声音模式最接近倾听者的脑电波,那么这个声音就被放大。研究人员在2017年发表了这个系统的早期版本,在當时虽然这一实验很有希望,但有一个关键的限制:它必须通过预先训练来识别特定的说话者,现在的版本很大程度上解决了这个问题。
在哥伦比亚科技投资公司的资助下,团队改进了他们的原始算法,Mesgarani博士、第一作者Cong Han以及James O’Sullivan博士再次利用深度神经网络的力量,建立了一个更复杂的模型,可以推广到听者遇到的任何潜在的说话者。研究人员最终开发出一个语音分离算法,与以前的版本相比,运行方式类似但有重要的改进,可以立刻识别并解码任何声音。
为了测试最新算法的有效性,研究人员与论文的合著者、医学博士Ashesh Dinesh Mehta合作,Mehta也是医疗集团Northwell Health的神经外科医生,他对癫痫病人进行治疗,这些病人中的一些人必须接受常规手术。研究人员在病人的大脑内植入了电极,在这些病人倾听不同的说话者说话时,可以通过这些电极监测他们的脑电波,然后使用新开发的算法计算这些数据。当病人听以前没有听过的演讲者说话时,研究小组的算法会跟踪病人的注意力。当病人把注意力集中在一个说话者身上时,系统会自动放大那个声音。当他们的注意力转移到另一个说话者身上时,音量水平就会发生变化,以反映这一转变。
受到研究结果的鼓舞,研究人员正在尝试将这个原型转变成一个可以放置在头皮或耳朵周围的非侵入性设备。他们还希望进一步改进和完善算法,使其能够在更广泛的环境中运用。到目前为止,研究人员还只在室内环境中进行了测试,但研究人员希望它能在繁忙的城市街道或嘈杂的餐厅里同样有效,这样无论佩戴者走到哪里,他们都能充分体验周围的世界和人们。
(摘自美《深科技》)(编辑/华生)
研究人员开发的这项实验技术,能够模拟大脑探测和放大多个声音中任意一个声音的天生能力,并且研究人员开发出一种由大脑控制的,可以“读心”的助听器,就像一个声音自动过滤器,监测佩戴者的脑电波,并放大他们想要听到的声音。
虽然这项技术仍处于早期发展阶段,但其意义仍极为重要,不仅有助于人们开发更好的助听器,而且能够帮助佩戴者跟周围的人进行无缝、高效的交谈。相关成果发表在近日的Science Advances(《科学进展》)中。
“负责处理声音的大脑区域极其敏感和强大,它似乎可以毫不费力地放大一个声音,而当前的助听器与之相比则相形见绌。”哥伦比亚大学莫蒂默·祖克曼大脑行为研究所学术带头人、哥伦比亚大学工程学院副教授Nima Mesgarani是该论文的通讯作者,他表示,“通过创造一种能够模拟大脑本身能力的设备,我们希望我们的工作将促进技术的进步,使全世界数亿听力受损的人能够像他们的朋友和家人一样轻松地与人交流。”
现代助听器在放大语音的同时,在抑制某些类型的背景噪音(如交通噪音)方面非常出色,但它们难以提高多个声音中其中一个声音的音量。这个问题跟喧闹的派对中混在一起的嘈杂声音类似,所以科学家们称之为鸡尾酒会问题,而在拥挤嘈杂的地方,传统的助听器也会同时放大所有声音,严重阻碍佩戴者的有效交谈能力。而这次研究人员开发的脑控助听器,不仅仅依靠像麦克风这样的外部声音放大器,还能够监测倾听者自身的脑电波,此前研究人员已经发现当两个人互相交谈时,说话者的脑电波开始类似于倾听者的脑电波。
利用这些知识,研究小组将强大的语音分离算法与模仿大脑自然计算能力的神经网络相结合,创造了一个系统。这个系统首先从一个群体中分离出单个说话者的声音,然后将每个说话者的声音与倾听者的脑电波进行比较。如果说话者的声音模式最接近倾听者的脑电波,那么这个声音就被放大。研究人员在2017年发表了这个系统的早期版本,在當时虽然这一实验很有希望,但有一个关键的限制:它必须通过预先训练来识别特定的说话者,现在的版本很大程度上解决了这个问题。
在哥伦比亚科技投资公司的资助下,团队改进了他们的原始算法,Mesgarani博士、第一作者Cong Han以及James O’Sullivan博士再次利用深度神经网络的力量,建立了一个更复杂的模型,可以推广到听者遇到的任何潜在的说话者。研究人员最终开发出一个语音分离算法,与以前的版本相比,运行方式类似但有重要的改进,可以立刻识别并解码任何声音。
为了测试最新算法的有效性,研究人员与论文的合著者、医学博士Ashesh Dinesh Mehta合作,Mehta也是医疗集团Northwell Health的神经外科医生,他对癫痫病人进行治疗,这些病人中的一些人必须接受常规手术。研究人员在病人的大脑内植入了电极,在这些病人倾听不同的说话者说话时,可以通过这些电极监测他们的脑电波,然后使用新开发的算法计算这些数据。当病人听以前没有听过的演讲者说话时,研究小组的算法会跟踪病人的注意力。当病人把注意力集中在一个说话者身上时,系统会自动放大那个声音。当他们的注意力转移到另一个说话者身上时,音量水平就会发生变化,以反映这一转变。
受到研究结果的鼓舞,研究人员正在尝试将这个原型转变成一个可以放置在头皮或耳朵周围的非侵入性设备。他们还希望进一步改进和完善算法,使其能够在更广泛的环境中运用。到目前为止,研究人员还只在室内环境中进行了测试,但研究人员希望它能在繁忙的城市街道或嘈杂的餐厅里同样有效,这样无论佩戴者走到哪里,他们都能充分体验周围的世界和人们。
(摘自美《深科技》)(编辑/华生)