【摘 要】
:
在安静环境中,语音识别模型能够达到95%以上的准确率,然而在现实环境中使用还是会有诸多问题,比如环境噪音的干扰,远场麦克风采集的音频信息信噪比过低等问题,以至于音频信号不能够满足进行语音识别的要求。这时就需要其他模态信号对音频信号进行补充。与音频信号相比,视觉信息不易受到背景噪音的影响,在说话过程中,人的脸部各个器官也会随之做出相应的变化,恰好可以对音频信息做出一定的补充。根据目前已有资料,多模态
论文部分内容阅读
在安静环境中,语音识别模型能够达到95%以上的准确率,然而在现实环境中使用还是会有诸多问题,比如环境噪音的干扰,远场麦克风采集的音频信息信噪比过低等问题,以至于音频信号不能够满足进行语音识别的要求。这时就需要其他模态信号对音频信号进行补充。与音频信号相比,视觉信息不易受到背景噪音的影响,在说话过程中,人的脸部各个器官也会随之做出相应的变化,恰好可以对音频信息做出一定的补充。根据目前已有资料,多模态语音识别已经在英语、汉语等主流语言上展开,但是对于藏语多模态识别的研究却几乎没有。基于此现状,本文主要研究了藏语拉萨话的多模态语音识别及应用。论文的主要工作如下:1.构建藏语音视频数据集为了加快藏语拉萨话多模态语音识别的研究,本文构建并开源了一个藏语拉萨话的音视频数据集。该数据集相较于常见的音视频数据集,如TCD-TIMIT,具有录制环境更复杂,场景更多等特点,更加贴近实际使用场景。2.端到端藏语多模态语音识别基线模型本论文使用WaveNet-CTC模型作为基线模型。基于端到端语音识别技术的特点和藏语语言文字特点,我们选取藏语单音节作为本文中所有模型的识别基元。在基线模型中,我们分别将音频信息、视觉信息、音频信息与视觉信息的拼接信息送入到WaveNet-CTC模型中。实验结果显示,在自建的藏语数据集中,音频信息与视觉信息的简单融合没有改善识别效果,我们分析可能的原因是该藏语音视频数据集中,说话人的头部姿态和面部表情差异较大,影响了视频唇部运动特征的提取,音视频的拼接特征具有一定的局限性。3.基于cross-attention机制的端到端藏语多模态语音识别为了解决音视频拼接特征的局限性,更好地利用视频模态的信息进行语音识别,本文提出了跨模态注意力机制(cross-attention),并将其用于WaveNet-CTC的端到端藏语多模态语音识别基线模型中。实验结果显示,相较于基线模型,在音频特征和视觉特征初级融合阶段引入cross-attention机制,对于语音识别的效果有很好的提升。4.基于隐回归贝叶斯网络的端到端藏语多模态语音识别为了解决音视频拼接特征的局限性,本文不仅在多模态特征的融合方式上进行了探索,而且在特征数据的表示方面进行了尝试。文中在端到端模型的输入层引入隐回归贝叶斯网络,试图从音频流的语谱图和视频流的原始图像中提取编码特征,替代输入端原来使用的人工音频特征MFCCs和唇部运动特征。根据实验结果,相较于人工选取的特征,由隐回归贝叶斯网络网络提取得到的隐特征并未有较好的语音识别表现。5.藏语音视频语音识别系统的微信小程序实现本文使用tensorflow深度学习框架和tomcat工具实现了藏语音视频语音识别功能的微信小程序。该微信小程序可以获取视频数据,返回视频数据的识别结果并在微信小程序中显示。本文通过对端到端藏语音视频语音识别进行研究,不仅补充了了藏语多模态语音识别方面的工作,同时在多模态识别模型的构建上,提出了 cross-attention 机制,有效融合了多模态特征,一定程度上解决了拼接特征的局限性,提高了语音识别准确率。此外本文还探索了在端到端模型输入端使用隐回归贝叶斯网络,使用提取的隐特征表示音视频原始数据,替代人工提取的MFCCs特征和唇部运动特征,尝试使用隐特征规避拼接特征的局限性。
其他文献
物理学科要培养学生的物理观念、科学思维、科学探究、科学态度与责任四大核心素养。物理概念是物理学科核心素养的基础,然而高中物理概念多、概念抽象、逻辑性强等特点,导致了物理概念和规律的难教和难学,尤其是物理抽象概念。因此探究促进高中物理抽象概念教学的研究非常重要。PHET仿真模拟(Physics Education Technology interactive simulation)主要是研究仿真模拟
大数据时代,推荐系统是帮助人们解决信息爆炸问题最有效的工具之一,但传统的推荐系统往往面临着数据稀疏和冷启动两大问题。近年来,社交平台的快速发展,使得各应用平台都产生了丰富的社交信息,因此有学者提出社会化推荐系统,在推荐系统中引入社交关系来提高推荐效果。虽然目前已经有许多研究工作取得了不错的成果,但多数研究都基于显式社交关系,而显式社交关系往往存在数据稀疏和噪音问题。为了弥补显式社交关系的不足,本文
与资源丰富语言相比,资源稀缺语言命名实体识别面临的最大困难是训练模型所需的语料尤其是人工标注语料的获取难度大、成本高,如何以低成本、高效率地识别资源稀缺语言的命名实体是目前资源稀缺语言命名实体识别的研究重点之一。本文研究如何从与资源稀缺语言文本相关的图片中获取与人名实体相关的信息,并将其应用于资源稀缺语言的人名识别任务中。本论文以藏文人名识别为例,具体工作如下:首先从与文本相关图片中抽取图片中的重
与基于插值或者重建的机器学习方法相比,深度学习在超分辨率(Super-Resolution,SR)任务上显示出其独特的优势。然而,人工设计一个性能优秀的超分辨率网络往往需要耗费大量的人力物力。除此之外,随着人工设计的神经网络越来越复杂,想要人工设计出一个表现不错的神经网络成为一个挑战。为了减少人工设计神经网络所花费的人力物力,神经网络架构搜索(Neural Architecture Search,
近年来,随着人工智能技术的不断革新,国家对各行各业越来越注重信息化的投入。自然语言处理作为文本信息化的一种重要方式,将其与司法文书相结合使得司法办公自动化必将成为大势所趋。本文主要研究的民事案件法律文本中命名实体识别任务,是司法领域信息化的基础工作之一,对后续的司法案件信息提取、案情辅助研判等一系列应用具有促进作用。本文在基于民事案件法律文书的命名实体识别研究中,完成了以下工作:1)构建司法领域命
场景文本检测是指从图像中定位出文本位置,该技术在图像检索、机器人导航、工业自动化和实时翻译等场景中有广泛使用,具有非常广阔的研究与应用价值。自然场景中文本的大小、排列方向和对比度等有很大差异,而且还受到噪声干扰、拍摄角度和光照变化等因素的影响,受这些因素影响,传统的文本检测方法对场景文本的检测效果较差,无法适用于复杂的场景文本检测。随着深度学习的兴起,基于深度学习的场景文本检测方法取得了重大突破,
微课是指教师在教学过程中,围绕某一知识点精心设计的以视频为载体的教学活动,具有简短灵活、便捷共享的特点。《普通高中物理课程标准(2017版)》中强调深化信息技术在物理教学中的应用,促进信息技术与物理学科的融合,因此物理微课也越来越受到教育工作者们的关注。如何让微课设计更加合理、在保证科学性的基础上充分发挥其辅助作用成为了研究重点。本文引入美国学者凯勒提出的ARCS动机模型,以此模型为基础将对应动机
民族高等教育是我国高等教育的重要组成部分,肩负着传承民族文化、培养少数民族人才、促进民族地区发展等多重任务。教师是振兴教育的希望,当前民族高校青年教师是教学和科研的主体力量,但民族高校青年教师在专业发展的过程中受到多种压力和影响。因此,了解民族高校青年教师专业发展现状,探究民族高校青年教师专业发展的影响因素是促进其专业发展的前提。本研究是以民族高校青年教师作为研究对象,采用问卷调查法和访谈法在青年
随着互联网技术的迅速发展,互联网对于人们的生活、学习、工作等方方面面,越来越不可或缺。多文档自动文本摘要任务的目标是从多个文本中,总结提炼出用户最关注的信息,从而减少用户搜寻相关信息的时间,提高用户获取信息的效率。朝鲜族是我国56个民族之一,朝鲜语是我国具有文字的少数民族语言之一。我国一直致力于朝鲜语信息技术标准化的研究工作。中英文自动摘要任务目前已经取得了显著的成果,但目前国内朝鲜语自动文摘技术