【摘 要】
:
语音作为人们平时生活中应用最广泛的交流媒介之一,越来越受到人们的重视。近几年以来,随着人工智能的快速发展,语音交互变的越来越受欢迎。麦克风阵列信号处理在人机交互和
论文部分内容阅读
语音作为人们平时生活中应用最广泛的交流媒介之一,越来越受到人们的重视。近几年以来,随着人工智能的快速发展,语音交互变的越来越受欢迎。麦克风阵列信号处理在人机交互和语音信号处理中有着重要的地位。作为麦克风阵列信号处理中的一项重要研究课题,波达方向(Direction of Arrival,DOA)已被普遍应用于机器人、智能家居等领域。精确而高效的估计语音波达方向直接影响着语音交互的效率、智能产品的用户体验等。相对安静环境下的DOA估计已经取得了比较理想的效果。然而,在现实环境中,DOA估计面临的主要挑战是背景噪声和房间混响对目标信号的干扰。这一问题的研究一直在进行,但精确的DOA估计仍然是一项非常艰巨而有挑战性的任务。在本文中,我们提出了使用卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short Term Memory,LSTM)相结合的方法来对高噪声和强混响环境下的波达方向进行估计。我们将不同的方法在同一个测试数据集上进行实验评估和对比。实验结果显示,与其它估计方法对比,本文所提出的方法的性能优势比较明显,能够大大提高语音波达方向估计的准确率(Accuracy Ration,AR)。与传统的基于广义互相关(Generalized Cross Correlation,GCC)的到达时间差(Time Difference of Arrival,TDOA)和基于CNN的方法相比,我们提出的方法AR平均提高了:41.3%和31.5%,与CNN相比,本文提出的方法在语音判决误差(Voice Decision Error,VDE)评测指标中平均降低了20.6%。除此之外,本文方法在不匹配的测试集上进行评估,模型对麦克风阵列拓扑结构具有较好的泛化性能。本文的方法能利用很少新的匹配数据在已经训练好的模型上进行自适应,将训练好的模型应用到新的麦克风阵列上,在保证了估计性能的同时大大节省了重新训练的时间。
其他文献
通过对某广场音乐喷泉环形半下沉式钢筋混凝土结构辅助用房的裂缝计算和有限元分析,从理论上研究露天、超长、薄壁钢筋混凝土结构温度裂缝产生的原因,为避免类似事故重复出现
本文以伺服机构及控制其工作的电路板电子舱为研究对象,根据产品实际承受的综合环境,仿真分析了综合环境下的温度和力学特性。其中伺服机构主要进行了温度环境和温度-振动综
硬质合金被称为工业的“牙齿”,在国民经济和社会发展中具有重要作用,其用途非常广泛,主要用于切削刀具,目前已占国内刀具的90%以上。硬质合金具有良好的综合性能,在刀具行业得到了广泛的应用。硬度和韧性之间的矛盾问题阻碍了硬质合金刀具的进一步发展。本文采用粉末冶金法制备了不同成分的细晶粒硬质合金材料,主要研究了钴含量、碳含量和碳化钛的添加量对细晶粒硬质合金组织及性能的影响。采用X射线衍射、SEM、自动钴
广泛存在的层状岩体由于自身结构的各向异性,复杂多变的破坏模式,因此对其地质体内洞室围岩的稳定问题的解决一直是岩土工程界面临的挑战,对其稳定性的研究也是学术界关注的
采用密度泛函理论理论方法 M062X/6-311++G(d,p),对吡喃木糖的热解反应机理进行了理论计算分析.针对吡喃木糖热解可能发生的化学反应共设计了九条可能的热解路径,并对各路径中
<正>"数学基本活动经验"是东北师范大学校长史宁中教授于2007年提出的,并在由他主持修订的《全日制义务教育数学课程标准(修改稿)》中正式发布。数学基本活动经验可以理解为
目的:维持及促进老年人的自立生活能力不仅能够提高老年人的生活质量,而且能够降低人口老龄化对家庭及社会造成的压力,已成为应对人口老龄化问题的有效途径之一。视觉是人类
分析了地铁车站侧墙裂缝产生的机理和原因.通过降低水泥的水化热,降低混凝土浇注温度及外界气温,降低混凝土的干缩变形,配置适量的钢筋等措施,可控制裂缝的发生和发展.
<正>【据《Hepatology》2013年2月13日报道】题:关于熊去氧胆酸早期生化应答与原发性胆汁性肝硬化长期预后关系的14年队列研究(作者Zhang LN等)熊去氧胆酸(UDCA)治疗原发性胆
我国现阶段处于社会主义阶段,自从中国共产党成立一直把社会主义最理想的阶段也就是共产主义阶段作为奋斗目标,那什么是共产主义呢?它有两种含义广义的共产主义指的是马克思主义