多声源声学事件检测与定位的邻域相似增强方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sh_xq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学事件的检测与定位是声学领域的研究重点,对未来智能设备与虚拟可交互系统有关键性作用。单声源无干扰的条件下,现有研究成果的声学事件检测与定位的准确率已经较高,但实际场景中,声学事件语音信号受到回声、噪声和叠加声源的干扰,准确率有进一步提升的空间,本文研究多声源复杂条件下,小数据集的声学事件与检测增强技术。
  提出一种基于邻域相似性的分解方法,将声学事件检测与定位任务分解为邻域相似任务和事件预测增强任务。邻域相似任务利用声学事件在持续时间内的连续性特点,基于CRNN神经网络模型预测四种邻域相似性类型,本文探究了不同邻域特征生成策略对邻域相似性预测结果的影响,同时论证邻域相似性方法的小数据集适用性;事件预测增强任务提出多声源结果增强和单声源模型增强两种策略,本文研究了不同增强方法的实际增强效果,分析了导致差异性增强效果的原因。
  在小规模数据集下,邻域相似性任务使用短时傅里叶(Short-time Fourier Transform, STFT)差特征的分类正确率最高,相关性分类正确率达93%,相似性分类正确率为96%、59%、82%和61%,高于相同条件下声源数目分解方法的子任务。事件预测任务的多声源结果增强方法和单声源模型增强结果,相比于基准模型声学事件检测(Sound Event Detection,SED)错误率分别下降了4.8%、3.3%,F分数分别提升了1.9%,1.5%,声学事件检测与定位(Sound Event Detection and Localization, SELD)分数均提升1.1%。证明基于邻域相似性的增强方法,在不改变模型的前提下有助于提升多声源声学事件预测的准确性,给声学事件检测与定位提供了另一种思路。
其他文献
随着人工智能技术的发展,人们对对话系统的期待更多转移到沟通交流的需求。情感是影响人际沟通的重要因素,具备情感认知与表达的能力是智能的更高层级表现,其能够从更深层次理解与满足人类需求。然而目前大多数对话生成研究致力于提升回复的多样性与流畅性,忽略了情感表达的要求。融合情感认知的对话生成方法研究以对话中的情感信息为切入点,通过预测与表征对话文本中的情感信息,使对话系统具备情感感知的能力,然后将情感信息
学位
云计算是信息时代的重要发展趋势和国家重大发展战略。近年来,全球性的网络安全事件频发,而云环境由于虚拟机同质化等缺陷,用户隐私数据安全问题更加突出。在发生安全问题后,隐私侵犯取证成为大量企业和用户进行法律维权首要面临的难题。目前虚拟环境中隐私侵犯取证研究还不完善,主要存在两个问题:一是受限于特定或单一的指令集架构、操作系统或产品;二是细粒度的实时监控会给客户机带来过大的性能开销。  针对上述问题,虚
学位
RDF(Resource Description Framework)作为描述Web资源的标记语言,因其结构简单表达灵活的特性常用于表示图数据。SPARQL(Simple Protocol and RDF Query Language)是W3C(World Wide Web Consortium)推荐的标准RDF查询语言。随着RDF数据规模的急剧增长,如何高效响应SPARQL查询成为当前RDF图数
学位
内存计算系统(例如Spark)已经广泛用于处理工业界的海量数据。为了提高这些系统的计算效率和鲁棒性,系统开发人员为用户提供了许多高度可配置的参数。由于高维度的参数空间和复杂的参数交互作用,手工调优这些参数既耗时又低效。因此,用户急需一种内存计算系统的参数自动调优方法。目前参数自动调优常用的方法是基于机器学习的方法(Machine Learning-based, ML-based),ML-based
学位
图计算是大数据领域的主要处理模式之一,在生物信息网络、网页排名等领域有着广泛的应用。研究表明,图计算在传统中央处理器(Central Processing Unit,CPU)和图形处理器(Graphics Processing Unit,GPU)架构上存在着负载不均、不规则通信以及随机访存等突出问题,性能和能效水平受到较大影响。现场可编程门阵列(Field Programmable Gate Ar
学位
随着互联网的飞速发展,数据的增长速度也在急剧增加,将所有的数据存储在本地磁盘已经无法满足数据的需求,越来越多的公司和个人用户选择将数据存放在云上。为了数据的正确使用,用户需要确保从云端获取的数据是完整的。因此,如何检验存储在云上数据的完整性就成为一个重要问题。传统的云存储中数据完整性验证框架通过引入第三方认证机构(Third Party Auditor, TPA)来完成验证工作。由于该框架完全依赖
学位
传统计算机处理架构面临着严峻的“存储墙”挑战,随着现实世界中图数据规模的急剧膨胀,难以满足图计算高带宽、低延迟、大容量的现实需求。通过电阻式随机存取存储器(ResistiveRandomAccessMemory,简称ReRAM)的存内计算硬件将计算单元集成到内存单元中,为解决上述问题提供了可能。考虑到电阻式随机存取存储器中采用以矩阵结构为元粒度的组织方式,因此,在处理度数服从幂律分布的真实世界图数
学位
在边缘环境下,由于监测部署成本高、测量可靠性低等原因,数据稀缺性成为一个普遍难题。迁移学习非常适合解决此类问题,其基本思想是通过任务之间共享知识来解决数据量不足的任务训练问题。然而,目前多任务迁移学习系统对于资源受限的边缘设备来说过于复杂,原因在于:首先,机器学习模型本身就是计算和通信密集型的;其次,为了避免模型过时、且利用最新数据,需要对每一个任务从头开始反复训练。在这种场景下面对计算复杂性的挑
学位
手写体识别技术研究由来已久,识别效果也逐步提高,但迄今为止仍然存在很多未解决的问题,尤其是在一些实际的应用场景中,手写过程中不可避免产生的涂抹书写对传统手写体识别过程产生了极大的干扰,增加了识别难度,降低了识别准确率。即便现有针对涂抹书写的研究通过增加涂抹书写模块来提高识别准确率,但因此所增加的训练、识别环节在时间和资源方面的开销极大,从而导致了识别效率的急剧下降,产生难以调和的矛盾。  为解决实
随着神经网络建模能力的不断提升和深度学习在多种学习任务上的优秀表现,声纹识别作为生物识别技术的一种,不断突破着技术性能。从说话人的声音中提取出能够表示说话人身份的特异性特征,称之为声纹特征。声纹特征可以广泛应用于身份认证领域,成熟的应用包括声纹锁和声纹识别系统等,目前正逐步进行大型的商业应用。近年声纹识别的重心也渐渐从传统方法向深度学习方向转移,特别是端到端深度模型方向。现有的基于神经网络的声纹识
学位