基于深度学习的唇语识别方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户：bldhdh

【摘要】

：

【作者】

：

闫捷

【出处】

：

北方工业大学

【发表日期】

：

2019年07期

【关键词】

：

唇语识别深度学习卷机神经网络循环神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

唇语识别是指通过捕捉人在说话时的唇部运动分析出其所说的内容,其在人机交互、语音识别、视频监控等领域都具有广阔的发展前景。传统上,唇语识别系统的研究内容主要包括嘴唇的检测与定位、唇部区域特征提取和唇语识别三个环节。但是由于前期复杂的图像预处理过程和人为设计的特征具有耗时、经验性强、不完备的特点,再加上分类器的训练难度较大,使得传统的唇语识别方法发展缓慢,并且难以满足现实的应用需求。近年来,深度学习引起了越来越多研究者的关注,并在许多领域都取得了突破性的进展,如图像识别、人体动作识别、语音识别和自然语言处理等。深度学习可以直接从原始数据中逐层学习到更加抽象的特征,避免了传统的人工特征选取和设计高性能分类器的过程,可以真正实现端到端的完整识别系统。本文重点展开利用深度学习方法应用于唇语识别的研究,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)的混合神经网络结构。整个唇语识别的研究可以分为以下四个部分:首先对本文使用的数据库进行预处理。主要可分为两部分:首先利用随机采样法从视频中抽出固定帧数的图像。然后进行唇部区域的定位与提取,使用AdaBoost算法检测出人脸区域,利用Dlib库进一步标定出人脸68个关键点,通过提取出用于描述嘴唇的5个关键点,精确地获取本文的研究对象,即嘴唇区域。然后利用CNN直接提取静态唇部图像的空间特征。本文通过预训练Alexnet网络模型,利用其8层的网络结构将局部特征整合成全局特征,然后提取fc7层的空间特征向量用于描述嘴唇区域图像。提取到的空间特征具有鲁棒性强和容错力强的特点。由于在视频中,除了视频帧内的静态图像信息还存在帧间的时序信息。所以在CNN的基础上,本文增加RNN结构来提取序列间的时间特征。为解决传统RNN在序列较长时存在的梯度消失和梯度爆炸的问题,本文选用RNN的改进模型——长短期记忆结构(Long short-term memory,LSTM)来捕获唇动序列之间的时间特征。进一步地,本文研究了双向LSTM(Bi-directional Long Short-Term Memory,BiLSTM)在相反两个方向从唇动序列之间学习时序特征的能力。此外,加入dropout技术用于缓解网络在训练过程中出现的过拟合问题。最后将BiLSTM学习到的时序特征输入全连接层,使用softmax分类器输出每个类别的概率值,并选取概率值最大的作为最终识别结果。本文结合CNN对静态图像和RNN对序列数据的处理能力,同时捕捉空间维度和时间维度上的唇动信息。利用自制的实验数据库进行验证,实验结果表明,本文选取的混合神经网络模型应用于唇语识别系统具有较好的性能。

其他文献

浅析竞业禁止的若干法律问题

竞业禁止是协调平衡市场主体间(特别是雇主与雇员之间)各自权益的一种法律制度。本文通过对竞业禁止产生及其法理基础进行阐述,着重探究劳动者离职期间的约定竞业禁止应注意

期刊

竞业禁止诚实信用原则私法自治合理限制竞争

社会资本视角下的城市社区共享资源治理研究

社区共享资源是与社区内业主、居民生活息息相关的公共资源。实现社区共享资源的有效治理一方面直接提高了社区了公民的生活品质，另一方面也有利于社区的和谐与稳定。目前，对于

学位

社会资本城市社区共享资源治理

高中思想政治课导课的研究

随着新课改的不断深入推进,如何能够更好地实现教学目标,构建高效的课堂被越来越多的人所关注。作为课堂教学的开始——课堂导入(简称导课)环节也越来越受到重视。本文经过理

学位

导课思想政治课堂教学

穗港政府经济合作政策问题探析

在经济全球化背景下，区域间的经济合作成为了城市甚至是国家增强自己国际竞争实力的重要手段。香港是一个国际级的大都市，而广州又是中国最重要的经济中心城市之一，香港与广州直

学位

穗港政府经济合作政策问题制度

某柴油机高原工况性能模拟及优化

柴油机自1892年诞生到今天已经一百多年,期间经历了多次技术的革新和完善,目前成为世界上应用范围最广,重要程度最高的动力机械之一,是汽车、轮船、工程机械和很多军用设备的

学位

柴油机高原性能分析优化

腰椎黄韧带肥厚骨化的影像学研究现状

腰椎黄韧带肥厚骨化已成为腰椎非骨性椎管狭窄的常见致病因素,断层影像学上观测到黄韧带肥厚骨化厚度超过4 mm时,被公认为是一个诊断黄韧带肥厚的指标,但是由于人体骨性椎管

期刊

腰椎黄韧带肥厚骨化影像学

D-IBS与FD重叠肝郁脾虚证动物模型的建立及其中药干预机制研究

腹泻型IBS重叠FD证在中医学中属于“泄泻”、“腹痛”、“痞满”、“胃痛”、“反酸”等病证的范畴,我们的前期临床研究表明,腹泻型IBS重叠FD证中肝郁脾虚证最为常见。现在已

学位

痛泻要方合枳术丸肠易激综合征功能性消化不良肝郁脾虚证动物模型胃肠激素

歌吟中的复仇哲学——《铸剑》与《哈哈爱兮歌》的相互关系读解

<正> 关于鲁迅小说《铸剑》(原名《眉间尺》)中的三首歌,自从1927年4、5月间在《莽原》半月刊发表以来,它就被作为小说中的难点看待。针对不断有人提出歌意难懂的问题,1936年

期刊

宴之敖眉间尺《铸剑》鲁迅诗歌相互关系

考虑细化成本分类的金属加工造价优化数学模型的应用

对金属加工在成本的优化预测,建立造价评估数学模型,提高工程的可靠置信度,提出一种基于细化成本分类的金属加工造价优化数学模型。进行金属加工成本控制参量体系分析,构建金

期刊

细化成本数学模型金属加工

论分析命题与综合命题的区分

哲学家们常把命题划分为分析的/综合的,这种划分的标准最早由康德提出,但以分析/综合作为知识的分类的思想最早要追溯到洛克。逻辑经验主义继承和发展了这一区分的思想,更明

学位

分析综合逻辑经验主义

基于深度学习的唇语识别方法研究

与本文相关的学术论文