基于支持向量机的年龄和性别语音识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yy20092
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类语音不仅提供了口语的语义信息,而且还包含了说话者的性别、年龄和情绪等相关特征。在过去十年中,语音识别由于许多原因已经变得必不可少。其中一个原因是它可以用于移动设备的身份识别和准入控制。另外,它还可以通过识别刑事案件中的嫌疑人来最大限度地减少嫌疑人的数量。此外,语音识别系统还可以用于推荐系统来基于人的年龄和性别推荐合适的商品。本论文所设计的年龄和性别识别系统,还可以进一步用于关于特定人群年龄和性别的信息统计。
  本论文利用支持向量机(SVM)分类器的机器学习算法进行年龄和性别的识别,并且搭建了实际的演示验证系统。论文首先研究了从语音样本中消除噪声的语音预处理技术。由于年龄和性别识别系统的性能与所使用的语音特征有关,而音调基本频率是女性和男性发言者之间的主要区别因素,并且每个年龄组也都有不同的基本频率,因此论文采用了音调频率作为有用的语音特征。论文利用谐波与次谐波之比算法进行扬声器基频的提取,并将梅尔频率倒谱系数(MFCC)是作为语音识别的特征。经过实际测试,基于MFCC的性别和年龄识别准确度可以满足实际需求。作为MFCC的替代方案,源自MFCC的移位差分倒谱(SDC)也可以被用作语音特征。与MFCC相比,SDC的特性是它可以捕获嘈杂语音中的有用特征,因此在高背景噪声下具有更强的鲁棒性。通过实验对比,可以看出SDC的准确度也较为出色,但在数据集噪声不显著的前提下性能低于MFCC。论文最后提出了将音高和MFCC结合的新方案来提升年龄和性别识别精度,实验结果表明新模型对ELSDSR语音语料库的总体识别率可达97.7%,满足系统性能的要求。
其他文献
自清华简2008年7月入藏清华大学以来,至今已有十余年,引领了一阵学术研究的热潮,很多学者都投身於简文的整理和释读工作,涌现出了众多研究成果。《清华大学藏战国竹简(壹)》(以下简称:《清华简(壹)》)保留了先秦文献特别是《尚书》类文献的原始形态;内容丰富,极大程度复原了楚国历史面貌、地理环境和人文风情;提供了古文字和古文献研究的珍贵材料。词汇作为汉语中最活跃的部分,对於简帛词汇的研究也是其中最为重
学位
转录因子Foxg1在神经发育过程中发挥重要作用,其突变导致FOXG1综合征,患者表现为严重的社交和认知障碍等。以前对Foxg1的功能研究主要集中在发育阶段。由于Foxg1也强烈表达于生后至成年的神经元中,提示Foxg1在有丝分裂后及成熟神经元中也可能发挥重要作用。线粒体是真核细胞的主要供能器官,调控众多细胞生命活动。线粒体在不同类型细胞以及细胞不同的生理状态下呈现出不同的形态特征,而这种形态变化对
株高是水稻的重要农艺性状,决定了水稻的抗倒伏能力、理想株型和产量。鉴定挖掘并有效利用矮秆新资源,深入研究调控引起水稻矮秆的分子机制,将有助于加快水稻高产育种进程,为分子设计育种改良水稻株型提供理论指导。本论文以水稻组培过程产生的小粒矮秆突变体small grain and dwarf2(sgd2)为研究材料,对sgd2的表型进行了鉴定,通过图位克隆分离到一个影响水稻生长发育的关键因子SGD2,并对
学位
细胞周期蛋白依赖性激酶(CDKs)和许多其它蛋白质控制着植物细胞周期的进程,在真核细胞周期的调节中起主要作用。CDKs的活性可被一些称为KRP(kip相关蛋白)的细胞周期蛋白依赖性激酶抑制因子所抑制。据报道,在叶片发育过程中KRP1会导致细胞数目减少,同时也会显著降低种子的灌浆充实度。此外,KRP1参与细胞核DNA复制及籽粒灌浆有丝分裂终止的调控过程。  为了进一步阐明KRP1的功能,实验室构建了
学位
本文介绍了催化剂应用于汽车尾气排放控制的发展过程和催化反应理论知识。采用新的合成方法和新的配方,制备了包括Cu-ZSM-5、Cu-TS-1、贵金属催化剂和全铂催化剂在内的多种用于柴油机尾气NOx控制的催化转化陶瓷。考察了催化剂在柴油机实际尾气环境下对NO的催化转化性能和耐久性情况。分析了多种因素对催化剂催化效率的影响,对NO在Cu-ZSM-5表面的催化反应机理和反应动力学方程进行了分析推导。试验结
学位
对于患有严重听力障碍的人群来说,可以使用人工耳蜗(cochlear implant,CI)实现听力的部分恢复,虽然CI可以帮助听障用户在安静环境下获得高水平的语音理解表现,但在复杂的听觉场景中,CI植入人群对于感知语音往往存在较多的挑战。在实际的收听环境中,听众首先需要解析所有收听到的声音,之后将这些声音分组为不同的听觉流,并有选择地关注感兴趣的声音流。因此,对于听觉流的分离能力,将会严重影响听众
随着对包括高效调制技术在内的复杂无线移动应用的需求不断增加,对支持这些应用的大带宽的需求也急剧上升。然而,带宽资源是有限的。当前联邦通信委员会频谱分配政策仅允许许可用户访问频谱。但事实证明,当前许可频谱在时间和频率上的使用效率低下。因此,提出了无执照的二级用户概念,他们临时从现有的一级许可用户处租借频谱来提高频谱利用率,即从“频谱池”中租借频率。该项技术是基于动态频谱接入的(DSA),被称为认知无
随着社会信息化程度的不断深化使得对于通信网络的吞吐量及、时延及连接数等性能要求越来越高,这也驱动着通信基础设施及用户设备的持续更新,通信技术也日新月异。其中,大规模多输入多输出(Massive MIMO: Multiple Input Multiple Output)系统是第五代(5G)蜂窝通信系统关键技术之一。大规模MIMO可以通过提供大的空间复用和分集增益来提高性能,被认为是未来通信系统提高数
深度学习是基于人工神经网络的机器学习方法的一种。深度学习具有不同的架构,可应用于计算机视觉,语音识别,自然语言处理等领域。首先,我们研究了基于人工神经网络的深度学习模型。另一方面,神经网络是在输入和输出层之间具有多个层的深度神经网络。这些深度神经网络用于计算机视觉。深度学习具有很强的学习能力,可以从数据集中提取特征。在这些深度神经网络中,一个网络称为卷积神经网络。图像分类是机器学习中的一个重要问题
本文在电信和语音识别系统中考虑了自适应滤波算法的语音增强和降噪问题。在真实嘈杂的环境中存在这些系统会降低其效率并降低其性能。例如,对于电信系统,背景噪声信号破坏传输的语音信号并使其可懂度和质量降低。对于语音识别系统,它们使测试和训练语音信号之间不匹配。  过去已经提出了几种单麦克风增强技术,这里将对其进行讨论。这些技术中的大多数基于噪声平稳性的假设,但是在现实生活环境中,该假设未被广泛验证,这使得
学位