基于深度学习的口语评测算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xfcll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全球化的时代背景下,不同地区人与人之间的交流也变得越来越密切,越来越多的人有着学习第二门语言的需求。然而,与此快速增长的语言学习需求相对立的则是大多数学习者都面临着教育资源缺乏的问题。因此,如何更好地提供语言学习相关的教育服务是一项非常有价值的研究。随着语音识别技术以及互联网通信的快速发展,通过计算机辅助的口语评测算法开始被应用到教学中。相比于传统课堂教学,口语评测算法具有评价反馈更客观、学习资源更充足以及学习方式更友好等优点,因此口语评测算法近年来成为了人们研究的热点。本文的主要创新包含下列三点:(1)本文提出了基于文本先验的端到端Transformer模型,解决了基于语音识别的口语评测模型无法直接优化口语评测性能的问题。目前,主流的深度学习口语评测算法基于语音识别来进行误读判定,此类算法在训练阶段并未考虑口语评测任务中的目标文本,仅从提升语音识别准确度的方向来间接提升口语评测的性能。然而,目标文本能够极大地约束实际发音的解码空间,从而使得口语评测更为准确。本文提出的模型将目标文本这一强先验信息作为条件输入到Transformer Decoder,将语音识别和目标文本的对齐过程融合在一起,从而端到端地预测错误状态。这一方法能够直接优化口语评测的性能,相比于基于语音识别这一间接优化的方法有了较大的提升。在L2-Arctic这一口语评测常用数据集上,业界主流基于语音识别方法的F1分数为0.475,本文提出的方法则提升到了0.577。此外,由于使用了目标文本作为输入条件,本方法的推理过程是前馈式的,替代了原有自回归的方式。这一工作模式显著提高了推理的速度,本方法在测试集上的推理速度提升了近9倍。(2)本文提出了基于自监督声学单位建模带口音语音特征(L2语音特征)的方法以及基于语义距离模拟误读数据的训练流程,缓解了采用监督学习直接对L2语音特征进行建模的过拟合问题。对深度口语评测模型而言,往往需要较多的训练数据才能够准确地建模L2语音特征。然而,由于口语评测需要专家对数据的实际发音进行音素级别的标注,其训练数据较为稀少,采用监督学习模型在带口音的数据上直接进行训练往往会出现过拟合的问题。目前主流方法通过数据增强或是替换目标文本的方式来解决这一问题,但此类方法并未进一步分析误读的原因,因此并不能生成更为真实的L2语音特征来帮助监督模型进行建模。为了解决该问题,本文通过自监督模型将原始音频转为语义向量,并通过k-Means聚类的方式将这些向量无监督地离散化为声学单位,从而在没有人工标注的情况下对L2语音特征进行了建模。本文进一步使用此声学单位作为媒介,根据语义距离来找出某一原始语音特征的相似发音进行替换,模拟出了更真实的误读。在此模拟的误读数据上进行预训练,前述端到端口语评测模型的F1分数可以进一步提升到0.607。在仅使用20%标注数据的情况下,本方法依然能获得0.509的F1分数。(3)本文提出了基于声学单位及生成式模型的发音矫正算法,这一算法能够保留说话人的正确读音并修改错误读音,解决了现有口语评测模型无法给出个性化的语音模态反馈这一问题。现有口语评测模型大多是判别式的,因此一般只能给出文本形式的反馈,这一形式较为单一,且时常存在着难以理解的问题。基于用户的输入语音进行发音矫正则提供了更为直观的语音模态反馈,同时能够保留说话人的音色及节奏。为了实现这一目标,本文以声学单位作为媒介,根据标准读音模拟出了成对的误读数据,并提出了单阶段的发音矫正模型来矫正错误的声学单位并进一步转为标准的发音。在此基础上,本文还提出了基于Normalizing Flow的双阶段发音矫正模型来实现可逆的语义提取及语音合成过程,能够比单阶段模型更好地保留用户原始信息。相比于直接基于文本进行生成的语音合成模型,本文提出的模型同样能够生成标准的读音,但能够更好地保留用户的说话风格,使得反馈更为个性化,并帮助用户更好地对比矫正前后的发音差异,引导用户从感知及发音两个角度进行口语学习。
其他文献
研究目的:近年来,随着经济的快速发展和社会的日益现代化,大众很多日常行为发生了变化从而导致身体的出现了很多不良体态。体态,即身体的姿态。正常的身体姿态应该是站立位,侧面观,耳垂、肩峰、股骨大转子、膝关节和外踝在一条直线上的。良好的姿势对身体有益良好的姿势能够消除不必要的静态活动,不会伤及肌肉。如果肌肉被迫在静止的状态下工作,会消耗更多的能量,从而产生更多乳酸并导致肌肉疲劳。良好的姿势能最大程度地将
目的 分析儿童专科医院住院患儿因跌倒坠床事件所致的伤害特点及伤害风险的影响因素。方法 收集2016年1月至2020年12月首都医科大学附属北京儿童医院住院患儿跌倒坠床事件,对相关事件患儿的性别、年龄、自我照顾能力、最近一次跌倒坠床评分、跌倒坠床发生时间(日间/夜间、是否周末)、有无陪护、发生地点和伤害级别进行描述性分析;以跌倒坠床事件所致伤害作为因变量,应用生存分析,探讨住院患儿跌倒坠床所致伤害风
[目的/意义] 世界正经历百年未有之大变局,安全风险加剧,对安全治理提出了日益迫切的需求。作为安全治理的重要手段,开展安全态势感知与塑造研究意义重大。[方法/过程] 基于安全情报视角,分析安全态势感知与塑造的内涵。提出安全态势感知与塑造的安全情报路径。构建与解析安全情报视域下的安全态势感知与塑造模型。[结果/结论] 研究发现,从安全情报角度看,安全态势感知与塑造的基本逻辑过程是“洞悉系统安全态势→
<正>2020年2月12日起,美国陆军网站对美国陆军围绕现代化重点项目等开展的相关研究进行了系列报道,本文重点对3月15日前报道的相关先进设计与制造技术研究进展进行梳理研究。
期刊
通过介绍小麦制粉工艺原理,提出小麦制粉工艺流程、配粉原料及产品配制工艺,并分析各种方法的优缺点,以期能为小麦粉厂工艺设计、技术改造提供参考。
进入新时代以来,我国高度重视青年发展,洞悉青年现状,以马克思主义思想为原点,在长期的青年工作实践中,形成了具有新时代中国特色的青年观。新时代青年观系统地回答了我国当前培养青年的标准是什么、如何去培养,以及青年本身如何发展的问题。准确把握新时代青年观的内涵和价值,不仅对促进青年的发展和成长成才有重要意义,也对我国社会主义建设起到了重要的指导作用。
<正>全面深化教育改革背景下,党和国家对高校思想政治教育工作提出了更高要求。如何提高思政教学亲和力,保障师生之间的良性互动,成为提高思想政治教育质量,落实好党和国家对高校思政教学要求的重要话题。《高校思想教育的理论叙事》一书不仅系统介绍了主体间性的理论内涵,更指出了思政教学亲和力的提升办法。对此,笔者对该书进行深入阅读和分析,以此提出高校思政教学的新模式,以提高思政教学亲和力、思政课堂感染力、思政
期刊
美术科目是初中教学的一大重点课程,它的设立对学生的自我修养、美术修养都有着十分重要的帮助作用。而在信息技术快速发展的当下,信息技术对美术教育的发展产生了十分重要的推动作用,对美术教育的改革也有着十分重要的促进作用。因此,本文将围绕现代信息技术在初中美术教学中的应用这一论点展开详细论述。
在市政工程建设中,随着工程技术的发展,各种类型的给水管道不断涌现,不同的管道材质具有不同特点,为进一步提高工程质量,应该综合考虑现场工况,采取有效措施,做好管道的比选工作,进而促进管道的有效运用,确保工程可靠性,为建设优良市政工程创造有利条件。文章将通过筼筜湖“西水东调”生态补水工程为例,对比分析现阶段常用的几种给水管道材质,旨在给予相关工程选择给水管道材质时,提供适当合理的建议。
随着城镇化的发展,老旧小区改造工程已经成为政府关注的重点民生工程之一。但在实际改造过程中,居民参与积极性低导致老旧小区改造进程缓慢。为了分析老旧小区改造中居民弱参与问题,结合计划行为理论(TPB)和社会实践理论(TSP)对居民参与老旧小区改造的影响因素进行分析并构建理论模型;运用SPSS软件对数据进行分析,并运用AMOS软件对理论模型进行拟合,建立结构方程模型(SEM)进行实证分析。结果表明:居民