基于矢量量化(VQ)和人工神经网络(ANN)的说话人识别的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:huangyi802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展和多媒体信息的广泛应用,语音信号处理技术已经成为计算机界研究的热点.说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别技术作为语音信号处理技术的一个代表和重要组成部分,具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。本课题以语音信号的LPC倒谱系数、MEL倒谱参数和基音周期的混合特征参数作为识别的特征矢量集。运用矢量量化(VQ)和人工神经网络(ANN)技术实现与文本有关及无关的说话人识别。在一个10人,1800个的语音库上进行了系统的识别实验。本论文的主要工作有:1、在说话人识别系统的语音特征参数提取部分,详细阐述了声道模型、线性预测编码(LPC)分析、LPC倒谱系数、MEL倒谱系数的求解;2、介绍了说话人识别的不同方法,主要介绍了矢量量化技术及其在说话人识别中的应用,其本质是在一个解空间中用少数的几个特殊的点来代表空间中全部的有效点,以达到聚类的目的,并介绍了模糊矢量量化和改进的模糊矢量量化在说话人识别中的应用。同时,还阐述了遗传算法的基本思想和处理方法。将遗传算法的全局优化与VQ技术结合起来,采用科学的编码方案,动态的定标技术,高效的交叉策略,得到了模型的优化作用,提高了说话人识别率。3、提出了一种新的网络结构,这种网络能够很好地解决神经网络语音识别中的时间规整问题。该网络从输入语音信号的特征矢量序列中提取出一组固定数目的特征矢量,然后将这特征矢量馈入神经网络分类器进行识别。和其他的神经网络说话人识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化分类器的网络结构并保持较高的识别率。根据该方法分别对MLP和RBF神经网络分类器建立了一个说话人识别系统,并对系统进行了识别测试。实验结果表明,该方法具有上述优点。本篇论文从以上三方面讨论了说话人识别的理论,最后介绍了系统的实现与实验结果,并对实验结果进行了讨论、比较。
其他文献
为了在有强干扰的第三者存在的情况下,准确检测出发送来的信号,同时也为了提高通信的保密程度以满足军事通信的需要,扩展频谱通信已成为一种强有力的通信手段。扩频通信因具有抗
直接序列扩频通信系统(DSSS)目前得到了广泛的应用。系统本身的处理增益与编码增益使其具有一定的抗干扰能力。在工程实践中,射频带宽的限制、发射/接收机的复杂度、实现成本
掺铒光纤放大器是光纤通信中极其重要的器件之一,目前的研究热点是多种元素共掺的高浓度掺铒光纤,既能抑制铒离子的浓度猝灭、又能极大地提高铒离子的浓度。随着包层泵浦技术的
智能视频分析技术主要是处理包含有各种运动目标的视频帧序列,并从复杂场景中检测、跟踪以及分类目标,最后再对感兴趣的目标进行行为分析与理解。其中运动目标的分类是智能视频
煤矿井下移动通信是矿井调度员、电机车司机及其他工作人员之间通信联络的主要手段,在矿井安全、高效生产、抢险救灾中发挥着十分重要的作用。但目前的煤矿通信系统却非常落
二次雷达一直是国内外雷达信号处理领域的研究热点,由传统的二次雷达到单脉冲二次雷达,发展至今,基于模式S技术的一种新型的基于机载异频收发机响应询问的二次雷达正在得到广
未来移动通信系统朝着移动宽带化和宽带移动化的趋势发展,它将汇集蜂窝移动通信、固定宽带无线接入、移动宽带无线接入等系统,实现全IP架构、支持高速移动、满足多种业务需求
本文对数字电视地面广播(Digital Television Terrestrial Broadcasting DTTB)系统中的同步技术进行了研究,并重点仿真了DVB-T系统,以及中国新出台的国家标准。 简而言之数
基于软交换的下一代网络是目前通信网络领域的一个热点技术,它所倡导的以分组提供承载,呼叫控制与承载分离,呼叫控制与业务分离的思想得到了业界的广泛认同,目前国内外传统和新兴
双基前视SAR作为一种特殊体制的双基SAR,将发射机与接收机分别放置在两个不同的运动平台上并且使得接收机波束指向平台正前方,不仅具有灵活的空间配置,强的隐蔽性,丰富的目标散射