基于性别分类的说话人识别研究

被引量 : 0次 | 上传用户:xyf8319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号既包含了说话人的语义信息,又包含了说话人的个性信息,人们从中可以提取说话人的性别、年龄、籍贯等身份信息。说话人识别是根据语音信号中反映说话人的语音参数自动确定说话人身份的技术。作为一种生物认证技术,在信息检索、公安破案、语音身份验证、电话银行等领域具有重要的应用价值和广泛的应用前景。论文从数据采集到特征提取和分类识别进行了系统研究,取得了下列创新性成果。1、建立一个汉语方言语音数据库参照国际上语音语料库的设计标准,考虑录音通道、方言种类、话者年龄与性别分布的选择。最终建立起一个涵盖了闽、粤、吴、湘、北方、赣、客家等七种地方方言和普通话的汉语方言语音数据库。包括宽带语音(麦克风)和窄带语音(手机、固定电话),106小时的语音数据。2、提出一种基于码本模型的性别辨识方法首次在性别识别研究中引入半监督聚类技术,利用半监督学习的思想对汉语方言的语音数据进行矢量量化,形成具有监督信息的男、女性别码本的模型。该方法充分考虑了语音特征空间的概率分布状态,优化了码本的生成方法,提高了码本模型的精确度,解决了传统矢量量化算法中码本生成精度低的问题,有效提高了系统的识别效果。实验结果表明,在有噪语音和纯净语音环境下与传统矢量量化算法比较,在识别精度、系统稳定性鲁棒性等方面都明显提高。3、改进混合SVM的说话人识别方法SVM以结构风险最小化为准则,类别区分能力强,输出结果反映了异类样本间的差异性,适用于处理连续输入向量下的分类问题。为此,我们改进了应用于说话人识别的混合SVM模型识别系统。该方法在将大样本数据进行分割和聚类的基础上,为每一类样本语音都构造一个SVM进行训练,并综合所有的SVM输出结果进行决策分类。较好的解决因话者数量增加和语音数据规模过大带来的系统时间代价过大、识别效率低下的问题,有效地提高了话者识别系统的分类决策能力。4、建立了分层话者识别系统目前说话人识别难以大量数据下系统的实时应用,随着语音数据库规模的不断扩大,依据现有技术,系统在识别时间、内存需求及识别精度等方面都难以满足实时辨识的需求。论文讨论了MFCC、SDC等几种不同特征在识别系统中的表现,并依据分类搜索的思想,利用方言辨识、性别辨识等技术,缩小说话人识别中的数量和范围,再使用话者识别技术进行辨识,最终确定每一位说话人的身份,努力寻求建立一个最优的说话人识别系统模型。
其他文献
针对国内红外焦平面探测器在真空下封装的需求,本文探索制造与封装更好结合并更符合红外焦平面探测器使用效率的微透镜。本文中介绍并制造完成了100%的填充因子拥有平滑的表
为了扩大西藏野生果树光核桃的开发途径,对光核桃桃仁的出油率和油脂的脂肪酸组成及脂肪油中V E的组成进行了测定与分析。测定结果表明:桃仁的出油率达51.4%;光核桃脂肪油的
目的:探讨同型半胱氨酸血症、同型半胱氨酸(Hcy)代谢关键酶N5,N10-亚甲基四氢叶酸还原酶(MTHFR)及胱硫醚β合成酶(CBS)基因突变与青年缺血性脑卒中的关系。方法:采用病例对照
土木建设是一项长久的主旋律,是人类生活所离不开的,与我们生活息息相关。各种高楼大厦、宽敞的马路、各种形态的桥梁等在我们生活中经常见到的都跟土木工程有关系。然而,现
随着中国当代艺术与国际接轨,中国当代油画领域出现了一种策略性媚俗倾向,这种倾向在从上个世纪90年代中叶开始愈演愈烈,如今已成为当代油画主要的审美趣味。这种趣味不同于
本文以汉代遗嘱继承制度为主要研究内容。20世纪以来,大量汉简的出土,尤其是张家山汉简以及江苏扬州仪征胥浦一零一号汉墓出土的《先令券书》得以一窥汉代继承制度的究竟。《二
二十世纪八十年代末,日本在ZnO压敏电阻的基础上实现ZnO陶瓷的线性化。因ZnO线性电阻具有低的成本和优良的电性能而被广泛的用于电子、电力领域。随着超高压输变电路和电子元
弱磁场探测技术在医用、地震预测、导航等领域都有着非常广泛的应用。原子磁力仪,作为目前灵敏度最高的一种磁力仪,技术逐渐成熟,拥有高于超导量子磁力仪的灵敏度;而且还不需要很
寿险需求理论是宏观视角的保险需求理论,创建于20世纪60年代,主要探讨寿险购买行为与宏观经济变量之间的关系。该理论研究人们为什么和怎样通过购买寿险和年金来减轻或消除未来
环境问题是当今全世界面临的最重要的问题之一。为了控制并改善大气环境,需要研究能够满足不同需求、高灵敏的气体检测技术。可调谐二极管激光吸收光谱技术(TDLAS)结合波长调制