噪声环境下汉语重音检测方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhengyunemo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
重音是一种重要的韵律特征,在目前比较常用的汉语重音检测方法中,根据特征大致可以分为三类,一类是基于声学特征的检测方法;另一类是基于语法特征的检测方法;还有一类是融合声学特征和语法特征的检测方法。这三类重音检测方法作为某些语音系统的关键技术已经广泛应用于实际生活中。由于实际生活中存在很多噪声,使得应用效果不太理想。本文在现有汉语重音检测方法基础上,依据特征种类对汉语重音检测方法的影响,从基于上下文声学特征、基于感觉加权线性预测(Perceptual Linear Predictive,PLP)子段拼接短时谱特征、基于Mel倒谱频率系数(Mel Frequency Cepstral Coefficients,MFCC)子段拼接短时谱特征和融合各类优选特征四个层面上展开了汉语重音检测方法的研究工作。基于上下文声学特征的汉语重音检测方法。汉字的重音强度很容易受到周围汉字的影响,故本论文为每个被测汉字选取了八种不同上下文窗口,由基频、音强、能量、时长及其八类上下文窗口特征组成实验所需的特征集。基于PLP子段拼接短时谱特征和MFCC子段拼接短时谱特征的汉语重音检测方法。子段拼接短时谱技术把一个汉字的语音帧平均分为若干个子段,提取每个子段的相关语音特征。基于PLP和MFCC子段拼接短时谱特征重音检测方法把一个汉字的语音帧平均分成1到20个子段,然后提取每个子段的最大值、最小值和平均值。融合优选特征的汉语重音检测方法。本论文介绍了一种特征筛选算法,包括4个基本步骤:子集产生、子集评价、停止条件和结果验证。本文把不同的优选特征融合在一起,包括声学特征和PLP短时谱特征的融合、声学特征和MFCC短时谱特征的融合、MFCC短时谱特征和PLP短时谱特征的融合以及声学特征和短时谱特征的融合。在噪声环境下,融合声学特征和短时谱特征的汉语重音检测正确率最高能达到88.3%。
其他文献
P2P是网络计算的一种新技术,其目的是将网络中不同的计算机连接在一起,进行文件共享与交换,并能充分利用互联网和Web站点中的闲置资源。这种网络结构中所有的网络结点是互相
在图像识别的方法中,人们的一般性思维是寻找图像中存在的某些具体特征,然后利用这些特征进行分类,特征提取是图像处理领域重要的研究方向。但事物的具体特征可能是千差万别的,如
随着近年来钢琴教学的兴起,大量的人员加入到了学习钢弹奏的队伍。但昂贵的钢琴教学费用以及它特有的教师和学生一对一的教学模式造成了钢琴教育资源非常的紧缺,学习钢琴演奏
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已成为全球最大、最广泛使用的信息库。如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索技术越来越受到
BitTorrent、eMule协议以及其相关软件在全世界得到的应用越来越广泛,然而它们在方便了人们互相分享资源的同时也对网络带宽,版权保护等造成了很多负面影响。近年来,这些基于
B/S模式的应用系统能够弥补C/S模式系统下的缺陷,在企业应用系统由C/S模式向B/S模式转变的过程中,如何使现有的软件资源得到复用,从而快速、高效地开发出B/S模式的应用系统,
随着Internet的迅猛发展,网络流量迅速提高,新型业务层出不穷,这些业务对服务质量(QoS)均有严格的要求,这就要求IP网络能够提供相应的机制以便在高效地提高资源利用率的同时
随着无线网络技术的发展,无线多媒体技术得到了越来越广泛的应用。然而,多媒体在无线网络上的传送困难重重,因为无线通信盼误码率很高,而且有限的带宽会因为缓存溢出而导致数据包
在医疗、金融和航空航天等关键领域,计算机技术的应用越来越广泛,这些领域大量使用分布式实时系统来辅助业务,这就对各子系统间通信的实时性和灵活性提出了极高的要求,传统的
随着计算机网络技术、多媒体技术和通讯技术的发展,人们已不再满足简单的语音和文字通信,视频会议的开发和应用已经成为网络应用的热点之一。视频会议系统是利用通信网络,传