语音信号中类视频特征的提取方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qq351660
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年中,语音识别技术取得了巨大进展,特别是1984年Petajan开拓性的将视觉信息引入语音识别研究后,听觉视觉双模态语音识别(Audio-visual bimodal Speech Recognition,AVSR)技术比单纯的听觉语音识别在性能上有了显著提高。 但是视觉信息(主要指口型信息)的提取和处理却存在一些困难和缺陷,为了克服这方面的困难并尽量保持口型信息对语音识别的辅助作用,本文根据语音产生的双模态性,从挖掘语音信息和视觉信息固有关系的角度提出了从语音信号映射出类视频口型特征的新的口型特征的提取方法。 本文以汉语普通话为例,对从语音信号中提取用于辅助语音识别的类视频口型特征的方法进行了探讨性的研究。本文首先分析了汉语发音的特点,并根据声母和韵母的发音特点分别对声、韵母的口型进行了聚类分析,再按类定义了表征类视频口型特征的一组参数。接着对语音信号特征进行分析比较,选取了LPCC倒谱系数作为声学特征,并对特征参数提取的实现方法进行了较详细的说明;另外还对映射方法进行了分析比较,选取了具备映射动态特征功能和适应时变特性能力的Elman递归神经网络作为映射工具。然后利用前面的准备工作进行具体的实验研究,通过一系列的实验、实验结果分析比较、实验改进、再实验过程,得到了较好的音视频映射结果,也验证了从语音信号中提取用于辅助语音识别的类视频口型特征的可能性。
其他文献
今日美术馆“并非沉默”展览一共有 12 位国际艺术家参与。这些 1995 年之后出生的艺术家从不同的角度通过不同的方式了解着这个世界。他们的历程以展览的方式呈现,并证明他们独立的一面和独特的艺术表现。  “并非沉默”展览的内涵远远超越了整个的展览。谁能够阐释沉默?沉默可以是很多事物。  沉默可以是寂静,也可以是保持安静,更是声音的缺失。沉默也可以意味着抑制后的行动或者表达:“保持沉默”。人们也可以
摘要:现在的初中数学教学中,许多教师常常发出这样的感叹:“初中生学习数学的兴趣不高,老师无论怎么教,他们就是学不会。想要教会他们实在太难了!”可见,在初中数学教学中,培养学生学习数学的兴趣尤为重要。  关键词:初中数学;学习兴趣;数学教学  让学生乐意去学习,并把学习当成是一件快乐而又感兴趣的事来做,这并不是喊在口头上的口号,而是现代教育对我们老师提出的最新要求。也是众多一线教师非常关注的问题。如
海洋中微小的真核浮游生物是构成海洋微型食物链和生物量的重要组成部分,在海洋生态系统中占有十分重要的地位。对本论文利用分子生物学方法,对我国南沙群岛和厦门港附近的微型
随着科学技术的发展和研究的深入,数字电视的作用已远远超出原先设想的高清晰图像、高质量音响的范畴,数字电视还能够支持实现家庭信息化、宽频互联网等功能。我国政府已经把广
摘要:培养小学生的创新潜能要以丰富的知识为基础,以扎实的知识基础去促进思维的发展,同时还要不断创设创新教学的环境和氛围,实施开放型教学,把学生逐渐引向社会,以丰富他们的知识,扩展他们的视野,才能开发出他们的创新潜能。  关键词:创新潜能;师生关系;创新氛围;教学模式  创新是人类社会发展和进步的永恒主题,“创新是一个民族进步的灵魂”,也是国家兴旺发达的持久动力。只有创新科学才有进步,技术才能得以发
本文通过对荣华二采区10
期刊
物联网技术实现了物与物,人与物的全面互联,其中信息传感设备与人的交互需要对人的行为活动进行感知,即行为的检测或识别。目前使用广泛的有基于视觉或者穿戴式传感器的方法,这些
近年来,3S技术飞速发展,空间数据得到了广泛的应用。空间数据的数量剧增和日益细化的数据生产及应用的行业分工,需要在不同的数据生产者与使用者之间建立合理的互操作机制。同时
人体目标的视觉跟踪在视觉监控和人机交互等领域中具有广阔的应用前景,是当前的热点方向之一。为了建立一个鲁棒的跟踪系统,一些研究者致力于在贝叶斯跟踪方法中引入多线索融合
合成孔径雷达(Synthetic Aperture Radar,SAR)能够获得高尺寸分辨率图像,自二十世纪五十年代出现以来,得到了快速发展。这种新型雷达体制使雷达由原来的距离向一维高分辨扩展为