舱内辅助机器人发话人定位与识别方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lubin_1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舱内辅助机器人是运行于空间站内部,辅助航天员执行在轨任务和开展科学实验的智能飞行器。本文围绕舱内辅助机器人的发话人定位与识别问题展开研究,提出采用基于相关峰精确插值的时延估计方法实现辅助机器人的发话人定位,并利用深度神经网络实现辅助机器人的发话人识别。论文的主要工作如下:针对空间站声学环境相对稳定、机器人运行范围有限的特殊应用背景,提出采用基于空间六元麦克风阵列的发话人定位方法。综合考虑时延估计精度需求与平台计算能力,采用基于相关峰精确插值的改进时延估计算法。该算法可以突破信号采样频率的限制,能有效弱化FFT变换带来的栅栏效应,从而改善相关函数分辨率,提高时延估计精度。考虑到机器人的计算能力,采用基于短时倒谱距离的端点检测方法,筛选出有效语音段,减少相关计算的运算长度,从而有效提高计算效率。辅助机器人所处的复杂噪声环境会对语音带来很大干扰,从而影响时延估计值的准确计算,因此在算法中加入了谱减法降噪和二次相关函数来改进时延估计算法,提高算法对噪声的鲁棒性。舱内辅助机器人采用球形结构设计,因此可以采用空间六元麦克风阵列系统进行声源定位,充分利用空间尺度优势获取语音信息,该设计相比平面阵列能够减小时延估计误差对定位精度的影响,并更加准确获得声源(发话人)的俯仰角与方位角信息。针对传统发话人识别短语音精度不高的问题,提出了以语音信号MFCC特征参数为输入,以深度神经网络为后端分类器的短语音发话人识别方法。深度神经网络具有较强的多层非线性建模能力,能够对特征参数信息进行更大程度地深层挖掘,从而对原始语音特征进行分类。建立了六人短语音数据库,通过发话人识别测试,验证了所设计方法的可行性。建立了舱内辅助机器人发话人地面实验系统,通过实际测试,分别对基于相关峰精确插值的改进时延估计方法与传统广义互相关方法、空间六元阵列与平面四元阵列的定位精度进行了比较分析,验证了辅助机器人发话人定位方法的有效性。
其他文献
本论文依托于国家自然基金项目-水锁形成速度与水锁效果同主要影响因素之间的关系实验研究(编号:51574116),以高瓦斯矿井工作面落煤为研究对象,以水锁防治煤层瓦斯超限为理论
聚合物在现代社会中无处不在。它们燃烧速度快、同时伴随大量烟雾和有毒气体的释放,使用易燃材料可能会导致生命和财产的灾难性损失。聚乙烯醇(PVA)是聚合物中的重要组成部分
ITO(Indium Tin Oxide)是锡掺杂的氧化铟,是一种高简并、重掺杂的n型半导体氧化物,因其具有一系列优良的电学、光学以及化学等性能,所以广泛地应用于多种领域,显示出广阔的前景
智能化开采是煤炭开采发展方向。煤矸自动识别作为现阶段制约综放开采智能化的瓶颈,其研究具有重要意义。本文以李楼煤业厚煤层综放开采工程条件为背景,通过现场调研、理论分
随着高铝粉煤灰替代铝土矿提取氧化铝技术在工业实践中的应用,产生了大量的高铝粉煤灰提铝渣,其中钠钙硅渣是高铝粉煤灰低钙烧结法提取氧化铝后的残渣,该渣中有效组分CaO和Si
论文结合微波烧结技术的特点,通过确定陶瓷结合剂金刚石砂轮材料的组分与配比、仿真分析微波烧结过程中的电磁场分布、改进微波烧结工艺参数等手段成功制备出具有良好综合力
富氧燃烧技术作为一种有应用前景的燃煤电站二氧化碳捕集与封存技术,其原理是采用氧气与再循环烟气的混合气进行煤粉燃烧,产生的烟气经脱硫、脱水和纯化后CO2浓度可达95%。将
班公湖-怒江蛇绿岩带及雅鲁藏布江蛇绿岩带是青藏高原重要的组成部分,对于研究古大洋的演化历史和壳幔动力学过程等意义重大。依拉山地区位于西藏班公湖-怒江缝合带中段南部,
随着社会的进步,经济的发展,工业在急速发展的同时,也带来了大量的环境问题。比如大量含重金属离子和染料的废水未经处理或经部分处理就被排放到自然水体中。而这两类污染物
在临床医学研究中,病人容易受到多种可能结果的影响。当他在后续过程中遇到多个事件时,会产生多个失效时间数据。本文考虑一个半竞争风险框架,其中主体会经历两种不同类型的