论文部分内容阅读
舱内辅助机器人是运行于空间站内部,辅助航天员执行在轨任务和开展科学实验的智能飞行器。本文围绕舱内辅助机器人的发话人定位与识别问题展开研究,提出采用基于相关峰精确插值的时延估计方法实现辅助机器人的发话人定位,并利用深度神经网络实现辅助机器人的发话人识别。论文的主要工作如下:针对空间站声学环境相对稳定、机器人运行范围有限的特殊应用背景,提出采用基于空间六元麦克风阵列的发话人定位方法。综合考虑时延估计精度需求与平台计算能力,采用基于相关峰精确插值的改进时延估计算法。该算法可以突破信号采样频率的限制,能有效弱化FFT变换带来的栅栏效应,从而改善相关函数分辨率,提高时延估计精度。考虑到机器人的计算能力,采用基于短时倒谱距离的端点检测方法,筛选出有效语音段,减少相关计算的运算长度,从而有效提高计算效率。辅助机器人所处的复杂噪声环境会对语音带来很大干扰,从而影响时延估计值的准确计算,因此在算法中加入了谱减法降噪和二次相关函数来改进时延估计算法,提高算法对噪声的鲁棒性。舱内辅助机器人采用球形结构设计,因此可以采用空间六元麦克风阵列系统进行声源定位,充分利用空间尺度优势获取语音信息,该设计相比平面阵列能够减小时延估计误差对定位精度的影响,并更加准确获得声源(发话人)的俯仰角与方位角信息。针对传统发话人识别短语音精度不高的问题,提出了以语音信号MFCC特征参数为输入,以深度神经网络为后端分类器的短语音发话人识别方法。深度神经网络具有较强的多层非线性建模能力,能够对特征参数信息进行更大程度地深层挖掘,从而对原始语音特征进行分类。建立了六人短语音数据库,通过发话人识别测试,验证了所设计方法的可行性。建立了舱内辅助机器人发话人地面实验系统,通过实际测试,分别对基于相关峰精确插值的改进时延估计方法与传统广义互相关方法、空间六元阵列与平面四元阵列的定位精度进行了比较分析,验证了辅助机器人发话人定位方法的有效性。