基于深度学习的方言口音分类研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jizecheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
方言分类技术能够基于语音内容对音频添加类别标签,帮助构建方言数据集,助力我国方言保护事业,在深入挖掘方言间差异、地域对方言口音的影响等方面有重要意义。传统方言分类方法大量使用音频特征及支持向量机等传统分类器,音频特征设计需要专业的领域知识并会对实验结果产生特定偏向,支持向量机模型容量不足无法对抗复杂场景及强噪音影响。目前在方言分类课题上结合深度学习与注意力的工作较少,因此,本文在此课题上对深度学习与注意力方式的结合进行研究,主要工作如下:(1)构建广东方言语音数据集,目前包含普通话与广东地域常用的粤语、潮汕话、客家话3种方言。使用自建语音数据集,能有效避免研究类别缺失、采集设备及环境引入的新噪音等问题,且对于课题的后续延伸有较大帮助。(2)将语音信号转换为声谱作于统一表征,避免手工特征可能引入的问题,并针对语音信号特性使用音频增强、谱图增强两种数据增强方式,以处理数据集中标签不均衡分布的问题。(3)将前人提出的结合通道注意力机制的音乐分类模型从音乐领域迁移至方言分类领域,并结合自注意力提出一种基于自注意力的方言分类模型,使模型更好地捕获特征的高层级关联,进一步提升模型抽象能力,其宏平均F1值达到89.77%。实验验证了该模型的有效性,并探讨了与多头注意力结合的可行性及可能带来的性能提升。(4)带残差门控的通道注意力结构忽视了特征在空间域上的分布,无法很好地捕获方言差异体现在声谱图上的频率跃迁,本文将该结构与双曲正切激活函数、空间域注意力结合,提出一种基于混合域注意力的方言分类模型,其宏平均1值达到91.54%,并与本领域前人工作对比以验证其有效性。最后,本文依据上述实验所得模型,设计并实现了一个基于音频的方言分类系统,实现对方言类别的自动标注。
其他文献
随着移动技术的发展、智能设备的兴起,人们对通信技术的研究以及生活便利的追求促使着无线能量传输技术再次被提及。近年来,第5代移动通信(5G)带来的不仅是传统意义上的更高速率、更大带宽以及更强的空口技术,更是面向行业应用和用户体验的智能化网络。然而,在5G背景下,由物联网技术催生的各种机器类通信(Machine-Type Communications,MTC)带来了人与物之间的海量数据交互,更有超低时
锂电行业的快速发展,为环境保护提供了有效的解决方案,为此国家大力提倡新能源技术产业的发展。电动汽车中最核心的部件之一就是电池,然而电动汽车的发展很大程度受到了电池包的制约。因此,以某国外品牌三元锂电池为主要研究对象,对电池荷电状态估计和电池管理系统进行研究,能够开发放电倍率大、安全可靠性高的锂电池包,同时对监测技术进行研究,搭建可靠性测试平台进行验证,本文的主要工作如下:1.电芯品质是做成电池包的
在深度学习领域,传统监督学习基于训练集(源域)和测试集(目标域)满足独立同分布的假设。然而,当训练集和测试集不服从同一分布时,简单使用训练集训练出来的深度学习模型,在测试集上往往表现不佳。深度迁移学习的出现,就是为了解决源域和目标域联合概率分布不一致的问题。深度迁移学习方法在减少深度网络模型在源域上的训练误差的同时,尽可能地缩小源域和目标域之间的分布差异,使得预测模型在目标域上也有比较好的泛化能力
地铁运行过程中,列车供电系统电流会经轨道泄漏到大地中,这部分泄漏的电流称为杂散电流。由于地铁线路与埋地管线不可避免地出现交叉和并行情况,杂散电流会对附近埋地管道产生干扰,造成管道电位异常波动、管道阴极保护失效、管道电化学腐蚀等问题。因此研究杂散电流对管道电位影响规律以及杂散电流对管道腐蚀影响意义重大。杂散电流是动态变化的脉冲电流,由于电场传播速度几乎等同于光速,故在用电磁学有限元分析时可以将其概化
龙须菜(Gracilaria lemaneiformis)是我国传统可食用的经济型海藻,富含多糖、蛋白质、脂肪酸、氨基酸等多种功能性成分。课题组前期研究发现,龙须菜多糖具有多种生物活性。然而,由于水提龙须菜多糖溶解性差、分子量高和黏度大,其应用受到极大限制。因此,本论文创新性地采用UV/H2O2方法降解龙须菜多糖,研究不同处理时间对龙须菜多糖结构特性的影响;采用脂多糖(LPS)诱导肠上皮细胞IEC
圆形支护形式因其结构稳定、变形较小,具有拱效应等特点,使得混凝土能充分发挥其抗压能力,得以广泛应用于盾构施工工作井中。本文选题来源于珠三角水资源配置工程,在进行圆形盾构工作井设计时,规范中环刚折减系数α的取值难以确定,工程师为了安全起见会使用较低的α值来进行设计;另外规范中的α系数在使用过程中是一个定值,实际由于圆形地连墙自锁效应的存在,α系数应该是非线性变化的。针对这些情况,本文通过实际工程案例
随着现代通讯技术的发展,现代社会对数据通信提出了更高的要求。卷积码一直被广泛地应用在各种数字通信系统中,在LTE系统中咬尾卷积码也作为信道编码方案之一。而传统译码算法中具有高时延、低吞吐率的特点,且无法做到并行译码。本文基于卷积神经网络和递归神经网络的特点,分别对卷积码的译码性能、并行译码可行性进行研究。本文的主要工作如下:1.设计并实现了一种基于卷积神经网络的卷积码译码模型。由于卷积码的码字的每
广陈皮(Pericarpium Citri Reticulatae‘Chachiensis’),是产自广东新会地区芸香科植物茶枝柑的陈化果皮,在东亚及东南亚地区被用作高级的食品调味品和传统药材,属药典所述“道地陈皮”。作为天然陈化的产物,广陈皮中具有丰富的细菌群落,是有待探索的功能菌株重要来源。本研究选取了多个厂家多个年份的广陈皮,对其中存在的细菌菌株进行大批量分离、纯化和鉴定;分别从益生菌特性和
加成型液体硅橡胶(ALSR)由于具有优异的综合性能,被广泛应用于建筑装饰、汽车工业、电子电器和航天航空等领域。然而,由于ALSR的表面能较低,对塑料和金属基材的粘接性能差,大大限制了其进一步推广应用。目前,改善ALSR粘接性能的方法主要有对粘接基材表面进行预处理、在聚硅氧烷分子链中引入极性基团或添加增粘剂三种方法。前两种方法因工艺复杂、施工效率低和对环境不友好而被逐渐淘汰。添加有机硅增粘剂是目前改
近年来,我国社会和经济快速发展,公路运输事业在发展中发挥着不可或缺的作用,而发展过程中车辆超载超限问题一直存在。车辆的超载超限运输对公路设施造成严重的损害,使得公路设施的使用年限呈指数形式下降;而超载超限的车辆制动性能差,更容易造成车辆事故,严重威胁了人们的生命和财产安全。我国对于治超问题一向积极治理,但传统的人力治超方案效率低下且治理成本高,治理效果不明显。因此,如何高效、安全、准确、低成本的治