面向在线教育应用的语音识别技术研究

来源 :黄祥康 | 被引量 : 0次 | 上传用户:ck2112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在线教育因其便捷性、智能化等诸多优势受到越来越多用户的青睐。依托智能检测工具辅助教学,在线教育可以提供“个性化”的辅导,解决不同用户群体的学习问题。在在线教育领域,智能语音技术发挥着重要作用,如口语评分,课堂语音转写,在线视频自动字幕生成等功能的出现,帮助老师和同学提升教学和学习的效率,让老师和同学更专注于知识学习本身。但是当前端到端语音识别技术仍然存在以下缺点:(1)模型针对长时语音识别的识别能力较差。(2)在噪声、混响等环境下语音识别模型识别率严重下降。(3)存在背景人声时语音识别模型识别错误的情况。论文的主要工作和贡献如下:搭建并研究基于Conformer框架和联合CTC训练的端到端语音识别模型,研究在渐进式下采样,多尺度注意力机制对长时语音识别的影响,多尺度注意力机制将卷积和自注意力机制结合起来,学习更多不同尺度的语音表示,在长语音中有更好的识别效果。经实验表明,本文提出的多尺度注意力Conformer有效地提高模型对于长时语音识别场景的泛化能力。针对噪声环境,我们提出了双路的TFCN语音增强模型,利用递进学习的策略,分别对幅度谱和信号实分量和虚分量进行建模,输出去噪的语音,这种方法不仅利用幅度谱的信息,还通过实虚分量对相位谱进行学习,达到更好的去噪效果,除此以外,其参数量比基于Wave Net,Unet的网络模型参数量要大幅减少。针对背景人声导致语音识别模型错误识别非目标人语音的情况,本文提出孪生TFCN目标说话人提取算法,通过共享音频编码网络将识别语音和注册语音投影到同一特征空间,然后经过多任务学习得到注册语音中说话人特征,并用说话人注意力机制和TFCN网络进行处理,从而消除其他背景人声干扰。经过实验表明,基于时频域的TFCN说话人提取算法在SI-SDR,SDR等失真评价指标上要优于主流Spex模型。综上所述,对于在线教育场景下的语音识别系统可能遇到的长语音,环境噪声,背景人声等复杂情况的识别,本文提出了一种可行,轻量化,鲁棒的语音识别模型组合,有效解决复杂场景下的识别问题。
其他文献
作为一种新型教学形式,慕课因其开放性、大规模传播等优势受到广泛关注。但有效互动不足、辍学率高等现实问题使其面临挑战。随着慕课、在线课程等网络学习形式的迅速发展,如何有效评估与提升在线学习投入一直是研究者的关注焦点。近些年,相关研究集结于学习者在线学习行为投入,但鲜有研究探讨主观情感因素及认知过程。本文就某英语口语课程学生的认知投入、情感投入情况进行研究,深入探讨基于量规的同伴互评对学生在线学习投入
学位
根据2022年6月降水前后辽河沈阳段国考断面水质自动监测站数据变化,统计溶解氧、高锰酸盐指数、总磷等污染物超标情况,计算汛期断面污染强度,分析了污染原因。
期刊
良好的水动力及抗侵蚀性能是螺旋桨作为船舶动力推进系统核心部件的必要条件,这就要求其桨叶采用硬质合金材料制成,并且呈复杂的空间自由曲面形状。因此,船舶螺旋桨的设计、加工难度大,精度要求高,采用传统的设计加工方式很难满足船舶实际工况要求,是船舶工业研究的难点。近年来,基于逆向工程的船舶关键零部件数字化设计与自动化加工技术研究成为行业内的研究重点,该方法以实际船舶部件为对象,利用多种技术手段对工件尺寸数
期刊
目的 通过重组人干扰素α2a和α2b注射液的不良反应对比研究,为其临床合理安全用药提供参考。方法 收集2010年1月—2021年11月浙江省上报的不同重组人干扰素注射液不良反应报告604例,对不良反应报告的患者性别、年龄、给药途径、不良反应临床表现、不良反应类别、转归等进行分析,并对其不良反应累及系统、器官进行差异性对比研究。结果 重组人干扰素α2b注射液严重报告比例略高于重组人干扰素α2a注射液
期刊
本翻译报告源语文本选自《50个客体中的知识产权史》中的六个章节。原作通过50个典型的客体全面介绍了知识产权发展历程,全方位展示了知识产权与人类社会之间的相互影响。该书融理论性与可读性于一体,一方面可为知识产权研究领域学者提供文献参考与理论借鉴,另一方面有助于普通读者掌握知识产权的基本常识,提升大众的知识产权保护意识。本实践报告以维索尔伦提出的顺应论为理论指导。顺应论主张使用语言就是在不同的意识程度
学位
近年来,随着信息通信技术(Information and Communications Technology,ICT)的发展,物联网(Internet of Things,IoT)已经成为人们生活和各个行业中不可或缺的一部分。工业物联网(Industrial Internet of Things,IIoT)重塑了工业生产的面貌,加速了工业4.0的发展,实现更高效和可持续的生产。然而,传统的IIoT
学位
柑橘渣(CP)是柑橘加工的副产物,具有季节性和高含水量的特点。由于技术、资金和环境条件限制,柑渣副产物的利用效果很低。然而其营养丰富,含多种碳水化合物、有机酸和多酚黄酮类生物活性物质等。本课题筛选了柑橘渣中的自生益生菌,比较其在柑渣中的生长繁殖效果以及产酸产酶能力,同时探索了部分自生益生菌的基因功能;结合生产蛋白饲料常用的产脘假丝酵母,通过响应面模拟优化方法,探究了益生菌发酵柑渣提高其蛋白含量的最
学位
社区综合养老服务设施是时下全社会和建筑学界研究的热点,其建设目的是为回应城市老年人群体在熟悉的社区环境内养老的诉求。但在其实践探索过程中仍存在一些问题,如设施规划和现有公共服务资源之间彼此割裂、不同年龄层次群体之间缺乏包容共享、养老设施建设被“趋避”等。社区综合养老服务设施探索发展中出现的问题亟需引入一套完整的理论予以设计指导,这对解决当前设施发展中存在的不足具有重要的借鉴意义。“共生”的概念起源
学位
语音是人类日常交流中必不可缺的信息交互方式之一,而声纹转换技术是语音算法中的一个重要研究方向。声纹转换的目标是:在保持内容不变的基础下,使一段语音经过算法处理后听起来像另外一个人说出来的。声纹转换技术被广泛应用在各种场景中,如语音交互,语音的个性化定制,娱乐行业等。近年来,随着深度学习技术的快速发展,声纹转换技术也取得了明显的进步。作为声纹转换领域的一个重要子方向,零样本声纹转换也受到广泛关注。此
学位
随着直播电商的蓬勃发展,这种新兴营销方式受到了广泛的关注。相对于传统购物形式,直播购物具有顾客与主播或卖家之间的实时互动、产品的高度可视化等特点,较大的差异使得以往的研究难以完全用以解释直播电商情境下的消费者行为。现有关于直播的研究大多聚焦于用户和主播层面,主要从参与度、感知价值等视角展开,集中探讨了直播技术、盈利模式、监管机制等问题,而针对直播电商的特征及其影响的探讨较少。同时,对于直播电商情境
学位