【摘 要】
:
身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效确认此时的总变化空间是否因为预先设置的维度过高而学到了冗余信息.为此,本文将贝叶斯主成分分析(Bayesian Principal Component Analysis,BPCA)引入总变化空间的学习过程中,利用其来为总变化空间引入更多的先验信息,从而对
【机 构】
:
哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080;哈尔滨理工大学计算机科学与技术学院,黑龙江哈尔滨150080;哈尔滨理工大学计算机科学与技术博士后流动站,黑龙江哈尔滨150080
论文部分内容阅读
身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效确认此时的总变化空间是否因为预先设置的维度过高而学到了冗余信息.为此,本文将贝叶斯主成分分析(Bayesian Principal Component Analysis,BPCA)引入总变化空间的学习过程中,利用其来为总变化空间引入更多的先验信息,从而对开发集数据中包含的信息进行补充,并在先验信息的约束下削弱总变化空间中无效维的影响.实验结果表明,当开发集数据不充足时,相比于传统的总变化空间学习方法,BPCA方法能够有效提升说话人确认系统的识别性能.
其他文献
含有星间链路的低轨巨星座网络在全球多种业务回传至有限地理区域场景下会产生严重的网络拥塞问题,集中式的流量规划可以在一定程度上实现负载均衡.然而大规模网络规划的计算时间开销无法满足低轨星座的动态性要求.为此,本文提出了低复杂度的多品类流分段路由(MCFSR)算法,将星座-地面网络依据负载情况划分为两个分区,并在分区内对规划算法的精度与复杂度之间进行权衡,以达到降低算法整体复杂度的目的.同时,对于规划算法,本文提出了复杂度可调的改进的完全多项式时间近似(IFPTA)算法,用于分区内的路由规划,在计算复杂度不变
目标识别正逐渐成为自动化领域中提供准确目标类别信息的一项重要技术,并且当前大多数目标识别方法都是基于深度学习框架实现.通常,深度学习框架的输入数据均为原始图像数据,而在实际应用中,探测器获取原始图像数据并作为深度学习框架的输入进而实现目标识别的方式并非是高效的,数据获取并识别的过程包含了大量的冗余信息,降低了识别效率.在本文中,通过深度学习与压缩感知技术的结合,提出了一种基于联合感知矩阵的压缩学习目标识别技术(Target recognition technology based on a new joi
面对密集空间网络传输资源调度问题中的复杂度以及有效性挑战,本文以图论模型为纽带,将传统数学模型与机器学习方法相结合,提出一种基于图学习的密集空间网络传输资源调度方法.该方法基于图论模型对问题结构的认知将密集空间网络资源调度问题分解,由数学模型与基于图结构的强化学习交替配合完成整个求解过程.实验结果表明,与传统的基于数学模型的资源调度方法相比,所提方法能将资源调度收益提升25.1%,且其训练结果对网络场景变化具有较好的适应性.
为解决低照度图像增强过程中噪声放大、细节不足以及色彩还原问题,本文提出一种基于注意力机制残差密集生成对抗网络(Attention Residual Dense?Generative Adversarial Networks,ARD?GAN)的低照度图像增强方法.首先,该方法在全局光照估计模块(Global Illumination Estimation Module,GIEM)中生成全局曝光注意力图,以引导后续模块更好地进行照度增强;其次,使用卷积残差模块(Convolution and Residual
随着视频数据的迅速增长,大规模视频处理业务需求急剧增加.如何及时处理视频数据获取有效信息,进而向用户快速提供视频分析业务是亟待解决的重要问题.针对此问题,提出一种面向大规模视频处理的边缘功能模块化及重组部署方法(EFMR).该方法将视频处理业务下沉到网络边缘,利用网络功能虚拟化,将边缘服务器中的视频业务请求根据其内在相关性进行功能细粒度划分,按需匹配并最大化复用资源,实现重组部署,从而以较小代价实现边缘视频业务处理功能的平滑扩展.实验结果表明,EFMR方法不仅降低了边缘服务器的接入与响应时延、业务的推理时
为解决非正交多址接入(NOMA)技术在毫米波Massive MIMO系统中用户的分组受限于基站波束宽度的问题,提出了一种能够产生指向多个方向的波束的波束赋形方案.基于该多波束波束赋形方案,建立了多小区多用户场景下的用户资源分配的数学模型.为降低计算的复杂性,采用两阶段的资源分配算法.在第一阶段中,在给定的功率分配条件下将模型转化为联盟博弈中联盟的生成问题,并提出一种通过迭代确定用户分组和天线单元分配的算法;在第二阶段中,通过将非凸的数学优化问题转化为DC规划问题,提出用户功率分配的算法.仿真结果表明,本文
稀疏码分多址接入(Sparse Code Multiple Access,SCMA)作为一种重要的码域非正交多址技术,能够满足5G通信的海量机器接入需求,但是接收端采用的消息传递算法(Message Passing Algorithm,MPA)存在收敛速度慢、计算复杂度较高的问题.本文提出一种基于子图的边缘串行消息传递算法(SE-MPA),将原始因子图划分为多个不同子图,在子图的基础上优化消息更新顺序,利用边缘串行更新序列集,被更新的用户节点消息立刻用来更新相连的资源节点.仿真结果表明,该算法在少量系统B
针对无人机着陆地貌图像场景复杂、纹理特征丰富等问题,提出一种基于小波变换和深度网络的无人机着陆地貌图像分类算法.利用非下采样小波变换(Non-Subsampled Wavelet Transform,NSWT)的快速压缩能力,将小波变换后的前两层子图系数引入到卷积神经网络(CNN)中,压缩数据量.根据无人机着陆地貌图像的特点,采用轻量化卷积模块设计了15层卷积神经网络.通过支持向量机(SVM)实现复杂地貌场景的正确分类.实验结果表明:所提算法具有良好的特征表达能力,提升了着陆地貌图像的分类准确率.
为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,
在深入分析现有各主流低照度图像增强(Low Light Image Enhancement,LLIE)算法的基础上,提出了一种采用两阶段混合策略实现的低照度图像增强(Hybrid LLIE,HLLIE)算法.具体地,在第一阶段,对于给定的低照度图像,利用互补效果较好的Fu和Ying两个主流LLIE算法分别对其进行增强预处理,所得到的两张增强后图像称为初步增强图像;在第二阶段,将所得到的两张初步增强图像输入到预先训练好的多通道浅层卷积神经网络(Multi?channel Shallow Convolutio