语音信号的识别与转换研究

被引量 : 3次 | 上传用户:kcj321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号处理有广泛的应用领域,也有较长的研究历史。本文介绍作者在进行说话人识别、混叠语音信号分离和应用神经网络技术进行语音转换方面的若干研究探索问题。 本文共分六章。第一章,介绍研究背景;第二章,介绍语音信号分析的基本内容;第三章,介绍关于说话人识别的基本内容与特征参数的提取;第四章,介绍利用隐马尔可夫模型实现说话人识别的方法技术;第五章,介绍利用盲信号分离技术分离线性混叠语音信号的理论与方法;第六章,介绍利用神经网络技术进行语音转换的方法技术和初步的实验结果;最后是总结、建议及致谢。 通过理论分析和模拟实验获得了如下认识与成果: (1)特征参数的选取在说话人识别中是非常关键的部分,它的好坏直接影响着识别效果。在全面分析语音信号的众多特征参数的基础上,本文采用并提取Mel倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC),进行说话人识别,Mel倒谱系数具有较好的识别性能与抗噪性能。 (2)现有的说话人识别方法有动态时间规整法、矢量量化法、隐马尔可夫模型和神经网络法等,其中HMM已成为目前最佳的说话人识别处理模型。本文建立了自左至右的隐马尔可夫模型,并成功地实现了两个说话人的识别。 (3)在现实生活中的许多语音信号都是混叠信号,运用盲源分离技术分离这些混叠信号有利于更好地识别说话人。本文运用四阶累积量法和独立分量分析技术成功地将线性混叠语音信号分离,再将分离出的源信号用于说话人识别,可较好地识别出说话人。 (4)本文利用BP神经网络来实现不同说话人语音特征的转换,基本上实现了单个词的语音特征的转换。
其他文献
<正>2012年,李克强总理第二次视察恩施,要求恩施"在扶贫搬迁、移民建镇、退耕还林、产业结构调整等方面先行先试"。并"着力在创新综合扶贫体制方面破题,形成可资推广的经验"
通过对丰水期不同程度富营养化的洪湖全湖139个监测点位的高密度采样分析,采用GIS空间插值技术得到洪湖水体中各污染因子、水生植物生物量和水质类别的空间分布特征图.结果表
目的 了解角膜 3层组织的免疫原性相对值。方法  (1)细胞免疫 :将C57BL 6小鼠脊部皮下组织分离成囊袋 ,分别异位植入异种角膜 3层组织 ,于术后 12d用流式细胞仪检测鼠血清
目的:比较常见的川贝母、浙贝母及平贝母药材的异同,如来源、性状、用途等,以促进临床合理用药。方法:根据最新的2010版《中国药典》,并查阅相关文献,对上述药材的来源、性状
复杂先天性心脏畸形的产前诊断较困难,二维超声心动图是胎儿心脏畸形产前诊断的基本检查方法。近年来,四维超声在胎儿心脏产前筛查中的应用发展迅速,通过时间-空间相关成像(S
目的探讨高强度聚焦超声(HIFU)治疗子宫肌瘤对卵巢功能的影响。方法选择2008年1月至2010年12月在本院就诊的90例子宫肌瘤患者为研究对象,按照治疗方式不同将其分为HIFU组(n=3
教学资源作为教学工作能否顺利开展的前提条件决定了教学的整体质量。通过文献资料法、问卷调查法、实地访谈法、数据统计法,对贵州师范大学体育学院足球教学资源的现状进行
目的经验方贴敷治疗糖尿病周围神经病变的临床疗效。方法选取2012年3月—2014年3月就诊的患者,均已被确诊为糖尿病周围神经病变并进行持续治疗,共计60例,随机将所有患者分为
模因论是借用达尔文生物进化论的观点来解释文化传承规律的一种理论假设,模因是其核心概念。它是一种含有特定观念的信息单位,一般通过人们的语言和行为方式表现出来,可通过
采用问卷调查,对196名在校大学生的消费从众状况进行了调查、了解与分析。大学生因所受的教育、校园的特殊环境以及年龄上的独特性,消费从众心理有别于社会其他群体。对大学