基于多模态融合的语音分离算法研究与系统设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:wxtncxmmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,人们通过智能设备观看视频的需求日益增加。当视频中包含多个说话人时,人们所听到的声音是不同语音信号的混合,可能会无法清晰倾听每个说话人的语音。为了解决这一问题,可以在视频中加入语音分离技术来播放特定说话人的语音并屏蔽无关的干扰声音。语音分离技术能够从多源混合信号中分离出每个说话人的语音,在多个应用场景中为人们提供便利,从而引起越来越多学者的关注。在早期,人们通常采取单模态的方式进行语音分离算法的研究,近年来视觉信息被证明可以给语音分离的性能带来提升,视听多模态语音分离方法已经成为了一个新的研究趋势。另外,随着深度学习的不断发展,使用深度学习实现多模态语音分离已成为目前热门的研究方向,许多基于深度学习的视听语音分离算法被提出。然而,如何有效提取并处理声音与视觉特征,以及如何将算法应用到实际生活中仍然是人们所面临的问题。针对以上现状,本论文提出了一种基于两阶段特征融合的视听语音分离算法,通过实验验证了此算法的有效性,并以此算法为基础设计并实现了一个视频中说话人语音分离系统。本论文的主要研究内容如下:(1)本论文提出了一种基于两阶段特征融合的视听语音分离算法。考虑到不同频率声音信号对应的最佳特征提取器不同,该算法创新性地使用了不同的特征提取网络分别提取高频与低频声音特征,并将声音的高频特征与低频特征进行融合,实现了第一阶段的特征融合。将高低频声音特征送入改进后的时间卷积网络以生成最终的声音特征。另外,使用基于卷积神经网络的算法提取视觉特征,并将声音特征与视觉特征进行融合,实现第二阶段的特征融合。(2)对于提出的基于两阶段特征融合的视听语音分离算法,本论文在GRID数据集上进行实验,验证了算法在语音分离任务中的先进性,同时还研究了算法中两个阶段的融合对语音分离性能的影响,并对网络复杂度进行了分析。(3)基于提出的视听语音分离算法,本论文设计并实现了一个视频中语音分离系统。首先根据系统的设计背景与需求,对系统的整体架构进行设计,其中包含了4个模块的功能实现。然后设计并实现了一个可展示的界面方便用户使用,并对系统的使用流程与效果进行说明与展示。当使用此系统观看视频时,用户通过点击人脸选择感兴趣的说话人,系统检测到鼠标点击事件后通过人脸检测技术判断用户所选择的说话人并播放对应的干净语音,同时使用方框标记用户所点击的人脸。系统适用于任意时长的视频,操作简单,能够在人们观看视频时提供便利。
其他文献
在这个跨越式发展的时代,互联网科技的发展突飞猛进,金融科技的迭代日新月异,客户金融需求的不断变化,传统金融行业之间的竞争也变得更加激烈,银行业务特别是零售业务的经营理念、商业逻辑、业务模式、方法工具都需要不同程度的革新与重构。商业银行顺应发展趋势进行数字化转型,已经成为必然。本文以农行A支行为研究对象,在理论分析的基础上,通过资料的收集、文献的研究、问卷的调查、内外环境的分析,系统的研究了农行A支
学位
目的 利用太赫兹衰减全反射(terahertz attenuated total reflection,THz-ATR)光谱法实现花生冻伤的快速鉴别。方法 实验选择种子公司购入的同品种冻伤和非冻伤花生各500粒,采集1000粒花生样本的0~359.97 cm-1 THz光谱,通过光学参数计算得到样本集的吸光度、折射率和吸收系数。采用3点移动窗口平滑预处理和随机森林算法建立基于不同光学常数的花生冻伤
期刊
在经济全球化和我国经济的高速发展的背景下,跨境金融业务的市场需求不断增加,BOC银行也面临着激烈的市场竞争。通过提高客户粘性,能够有效的增加BOC银行的市场竞争能力。本文通过研究BOC银行云南省分行跨境金融业务的市场占有率和客户满意度,结合实地调研法和比较分析法,对其跨境金融业务的现状进行调查分析,目前存在着市场占有率不断下降、客户满意度下滑、产品服务同质化严重、专业人才队伍缺失等问题。为提高BO
学位
RNA序列发生弯曲时,不相邻的碱基之间可产生氢键,这些氢键构成RNA的二级结构。RNA二级结构对于其功能有重要的影响,因此RNA二级结构预测问题是计算生物学领域的热点之一,其目的在于根据生物界的规则和原理使用合适的算法计算RNA链最可能产生的二级结构。目前采用最多的是最低能量规则,即能量越低RNA结构越稳定。RNA序列中不相邻的碱基可根据规则形成基对,研究发现,当两条基对平行且相邻时,它们会构成堆
学位
企业数字化转型会对碳绩效产生影响吗,那么其内在机制和影响因素又是什么?因此本文以2010-2019年沪深A股制造业上市公司为样本进行探究。研究结果表明企业数字化转型能够显著促进碳绩效提升,绿色创新是其内在机制之一,连锁董事治理能力削弱了数字化转型对碳绩效的影响,管理层治理能力在其中的作用不显著。在分组检验中发现,其促进作用在国有企业、边远城市企业,以及经济政策不确定性较高和经济景气程度较低时更显著
会议
本文对大兴安岭北部喀喇其花岗斑岩体进行了岩石学、地球化学及锆石U-Pb年代学的研究,探讨了其形成的构造背景。结果表明:喀喇其花岗斑岩体锆石U-Pb年龄为132 Ma±1 Ma,表明其形成时代应为早白垩世晚期;岩石具有高钾钙碱性系列,过铝质特征;稀土元素属于轻稀土富集型,分布模式为右倾、左陡右平型式,具有较明显的Eu负异常特征。认为该花岗岩为铝质A型花岗岩,属于地壳岩石部分熔融的产物;该期岩浆侵位活
期刊
人工鱼礁作为海洋牧场中主要的工程构件,被广泛应用于生物多样性保护和海岸栖息地生境恢复。人工鱼礁投放后,改变了原有的海底地形,在其周围一定范围内形成了复杂的水动力环境。但由于受到海底水流的长期冲刷,礁体周围的泥沙因流场变化会经历悬浮、输运和沉降等过程。这些过程可能会造成鱼礁的沉陷与倾覆,从而丧失人工鱼礁的功能属性,同时也对区域底质及泥沙分布产生深远影响。目前,有关人工鱼礁泥沙冲淤的数值研究开展相对较
学位
我国股票市场自正式运行以来,一直处在高速发展阶段,它与经济结构变化的关联不断加强。在一个有效市场,股市会反映经济的发展状况,并在预期指引下提前做出反应,理论上股市与宏观经济存在较强的关联性。作为宏观经济短周期的库存周期与股票市场的关系值得关注。库存周期波动驱动力主要来自于制造业库存投资,从理论角度来讲,研究库存周期与制造业股价波动周期的关联性有较强的意义。本文基于VAR模型和谱分析方法,实证验证了
学位
小麦(Triticum aestivum L.)是世界上重要的粮食作物之一,提高小麦单产和总产量,满足庞大人口所需,是保障粮食安全和社会稳定的重要因素。近年来,随着耕地面积不断减少、各种生物及非生物胁迫不断增加以及气候条件变化等影响,小麦生产面临着更加严峻的挑战。深入研究小麦重要农艺性状的遗传机制,挖掘与产量性状相关的主效QTL,对培育小麦高产品种和增加小麦产量具有重要的推动作用。本研究以“存麦1
学位
研究背景:中国是乙型肝炎的主要流行地区之一,约有4%-10%的孕妇乙肝病毒表面抗原(Hepatitis B surface antigen,HBsAg)为阳性。妊娠和乙型肝炎病毒(Hepatitis B virus,HBV)感染两种状态之间的关系十分复杂,研究表明HBV感染可能通过多种机制影响妊娠结局。目前,有关母体HBV感染与不良妊娠结局之间的相关性研究报道较少,且研究结果并不一致,不同水平的H
学位