面向语音信号稀疏优化的欠定盲源分离方法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:lan_lang_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
盲源分离(Blind Source Separation,BSS)是一种从未知混合信号中分离源信号的盲信号处理关键技术,广泛应用于语音处理、图像处理、医学信号分解、机械故障检测等现实领域中。随着人工智能的快速发展,语音信号的盲源分离作为语音识别、语音增强、声源定位等智能语音系统的前端处理环节,发挥着举足轻重的作用。并且在实际工程中,接收混合语音数目少于声源个数的欠定情况更具有普遍性与挑战性,因此本文注重于对面向语音信号的欠定盲源分离(Underdetermined Blind Source Separation,UBSS)方法进行研究。本文基于稀疏分量分析(Sparse component analysis,SCA)思想,在经典的两步法框架下,综合运用多种信号稀疏变换方法、优化方法与压缩感知(Compressed Sense,CS)理论,实现欠定语音盲分离。其中,语音信号的稀疏优化方法与源信号恢复方法是研究重点。本文分别从基于时频变换与基于字典学习的两种稀疏优化方向考虑,研究了不同的欠定语音盲分离算法,具体工作内容如下:(1)研究了非平稳语音信号和平稳语音信号使用不同时频变换方法进行稀疏表示的方法,并在此基础上提出了一种频域贪婪稀疏优化的欠定语音盲分离源信号恢复算法。该所提算法将贪婪最优化思想引入至稀疏分量分析的源信号恢复方法中,实现不同种类语音信号的欠定盲源分离。与最短路径法相比,所提算法可以提高两路以上混合信号的分离性能;相较于平滑L0范数算法,所提算法可以有效提高来波方向较近的语音盲信号分离性能。通过仿真对比实验证明了所提算法在保持分离质量的同时具有更广阔的适用范围。(2)在现有的字典域稀疏优化方法基础上,提出基于KEMD-SimCO字典学习的源信号恢复改进算法,以增强稀疏基字典的稀疏化能力,提高源信号恢复性能。该改进方法利用经验模态分解(Empirical Mode Decomposition,EMD)增强信号的稀疏性,将K均值模态经验分解(K-means EMD,KEMD)字典作为现有SimCO字典学习方法的初始字典,提升字典稀疏化能力。(3)考虑到不同分段长度对语音信号的恢复效果不同,提出一种新颖的动态SimCO字典学习的源信号恢复改进算法,在现有SimCO字典学习算法获取语音信号稀疏特征的基础上,利用最速下降优化思想动态改变信号分段长度以获取全局最优的恢复信号,从而提高欠定语音盲源分离性能。仿真对比结果表明所提的KEMD-SimCO和动态SimCO方法都能成功实现源信号恢复,和已有的字典学习方法相比,动态SimCO字典学习的改进算法能够更充分地挖掘语音在字典域的稀疏特性,在保证运算高效率的同时提高语音恢复质量。
其他文献
本文对中美两国教材中“指数函数”相关习题进行数学认知层次比较研究,旨在为我国教材编写提供参考。首先,比较中美数学课程标准。接着在文献综述基础上建构数学认知层次框架:层次-1:计算——操作性记忆层次,层次-2:概念——概念性记忆层次,层次3:领会——说明性理解层次,层次4:分析——探究性理解层次,最后,将两版本习题根据数学认知层次框架分类并进行比较分析。研究得到:(1)人教版以符号表征方式为主,加州
利用人脸属性进行身份验证是最直接方便的手段,每个人的容貌随着年龄的变化会出现一定程度的改变,进而对人脸识别结果产生影响,因此人脸蕴含的大量年龄信息是识别个体的重要依据。与人脸图像分析相关的年龄估计、人脸老化合成研究是当下的热点问题,它们可以应用在很多重要的领域,如刑侦、数字娱乐等。随着社会的发展,各式各样以年龄为基础的人机交互信息系统持续改进升级,年龄估计与人脸老化合成技术在不断进步的过程中仍存在
近年来,人口老龄化趋势加速使得全球医疗体系面临人力不足的严峻问题,2020年爆发的新冠疫情更是加剧了全世界高效率医疗资源的稀缺程度,利用人工智能来缓解医疗资源紧张的需求变得越来越迫切。目前少有结合了表情识别和边缘计算的病房监控研究方案,本文针对这个现状,以及轻量化卷积神经网络的表情识别准确率不足问题,展开了以下几方面的深入研究工作:1.对传统轻量化卷积神经网络Xception进行改进研究,提出了改
随着智能终端的普及,各个应用领域对无线网络的需求急剧增加,新一代5G移动通信系统成为了全球移动通信领域的研究热点。作为面向5G关键技术的非正交多址接入技术,是一种利用了频域、时域、功率域的新型多址方案,该技术允许多个用户在同一个子信道内同时传输数据,在接收端采用串行干扰消除技术消除用户间的干扰,进而显著提升了系统的频谱效率和能量效率。研究非正交多址接入系统的用户功率分配方案对新移动通信系统的实现具
2020年春,全球爆发新冠肺炎疫情。根据联合国教科文组织的统计,全世界大约有143个国家,全国性的关停了学校,近11.84亿学习者受到了影响,其中67.7%以上是在校学生。突发的疫情,将教与学的主阵地,从实体课堂转移到了线上,瞬间触发了全球性的大规模在线教学的实战。我国各省市纷纷出台政策,推动各级各类在线教学的广泛开展,也给广学大一线教师教学方式带来了极大的挑战,如何顺利开展在线教学,提升在线教学
数字图像抠图是当前计算机视觉的热门研究问题之一,其广泛应用于电脑特效制作、电影电视作品创作等领域。图像抠图的本质是图像的软分割,旨在提取图片、视频流中创作者感兴趣的前景物体,并将其同背景剥离和目标背景进行融合,从而获得新的具有视觉冲击力的图片或视频流。电影工业上常用绿幕来辅助抠图,但在自然图像中,如何精确地提取前景物体成为了当前研究的重难点。目标物体边缘的细节信息,包括动物的毛发、半透明的物件、颜
随着便携式电子设备和新能源电动汽车等的发展,人们对于高能量密度,高安全性储能电池的需要越来越迫切。全固态电池因其特有安全性而备受瞩目。但是全固态电池在常温下的离子传输效率低,固-固界面接触差等因素使其在实际应用中受到限制。目前已报道固态电解质按照其组成可以大体分为无机陶瓷固态电解质和有机聚合物固态电解质两大类。无机陶瓷固态电解质,兼具室温下离子电导率高,电化学窗口宽,机械性能好等优点。然而无机陶瓷
毫米波丰富的频谱资源和短波长可以分别解决当前通信中频谱资源不足问题和MIMO通信系统中多天线的硬件集成问题,但是毫米波通信中传输损耗严重的问题同样不容小觑,而波束成形可以实现定向传输信号,弥补毫米波通信中严重的路径损耗。毫米波多用户MIMO通信系统中的混合波束成形技术同时具备了模拟波束成形和数字波束成形的优势,从而实现了复杂度和性能的良好折中。毫米波多用户MIMO通信系统中的混合波束成形技术的研究
作为地球体系中的两个重要构成部门,大海和大气在各类时空尺度上彼此作用,调节着整个地球的能量均衡和水循环,从而对气候间的变化以及自然地理环境产生巨大影响。大气和海洋已经变暖并且已造成紧要且现实的威胁,是目前人们不得不面对的重中之重的问题。南海及毗邻的西太海域是对我国气候变化产生潜移默化的主要区域之一,而温度是表现海洋表层热、动力状况的主要指标之一。在南海内部存在一个双涡结构的环流,除此之外,南海还受
近年来,随着信号处理技术的发展,芯片的量产得以实现并且其成本有所降低,随之发展而来的应用传感器网络进行目标定位方案实现新的跨越,被广泛应用于生活、军事等各个领域。其中,利用麦克风声阵列传感器被动探测系统发展尤为迅速。该系统主要利用预先布置的麦克风阵列传感器被动式采集声源信号,并选用合适的算法实现对声源目标的探测和定位。本文以靶场弹着点定位问题为研究背景,主要讨论基于TDOA(Time Differ