论文部分内容阅读
作为一种感知周围环境十分有效的方法,环境声音识别(Enviorment Sound Recognition,ESR)被广泛的应用在机器人导航、移动机器人、音频检索、音频取证以及其它基于情景感知、可穿戴的应用中。目前,多种经典的分类器被广泛的应用在ESR问题中,但其性能还远未达到理想的水平,为了进一步提升ESR性能,本文首先引入了深度学习技术,深度神经网络作为一种高性能、多层级的神经网络,已经被广泛证明在提取数据特征和建立识别模型方面具有一定优势。声音因采集时无方向要求、且始终蕴含环境信息等优势,在环境识别时扮演主要角色,但考虑到一般情况下采集音频时容易获取若干辅助的视频信息,而且显然多模态信息更有助于提升环境识别的准确率,所以本文在构建基于深度神经网的环境识别方法时,同时利用音频特征和辅助视频特征。此外,针对在实际应用中环境类别非常多,新的识别需求不断涌现,针对新类别的数据标注和训练开销过大的问题,提出基于迁移学习的环境声音识别方法,基于已建模的相似环境类,和新类别的少量标注数据,学习得到新环境类别模型。本文将深度神经网络应用在环境声音识别问题中,为了充分利用声音特征和辅助视频特征,本文对如何融合两种模态信息进行探讨,提出两种特征融合方法,分别为基于特征的融合以及基于模型的融合。基于特征融合的环境声音识别方法,将音频特征和视频特征直接拼接作为深度信念网络(Deep Belief Network,DBN)的输入,并通过训练DBN进行环境场景的识别;基于模型融合的环境声音识别方法分别对音频信息和辅助视频信息建立DBN模型,并调至最优性能,然后用一个新的DBN用来代替原有两个DBN的输出层以实现模型融合,最终通过训练新的DBN进行环境声音识别。实验结果表明,基于模型融合的方法取得了最好的效果,识别性能相较于其它方法和基线系统有明显的提升本文提出基于迁移学习的环境声音建模方法,堆叠去噪自编码网络(Stacked Denoised Auto Encoder,SDA)的无监督训练较为简单,并能良好的学习数据集的特征,为其和迁移学习的融合提供了良好的基础。本文在迁移学习的框架下,结合SDA网络,通过衡量新环境类别的语料与现有环境语料之间的关系实现识别模型的迁移,实验表明此方法能有效地区分新场景,准确率有明显提升。在迁移学习理论框架下,反观DBN的预训练与微调过程,提出基于通用预训练的方法。该方法采用扩大DBN预训练数据集规模的策略,达到待识别数据只需在此通用预训练基础上进行快速的微调过程即可实现分类的目的。实验结果表明,此方法可以显著的提升待识别数据的性能,且用以扩大训练集的数据可以包括非场景数据,初步实验表明,部分说话人数据的加入有利于提升系统的稳定性和鲁棒性。