论文部分内容阅读
随着信息社会多媒体信息的急剧增长,很多领域需要用到语音处理系统。由于语音数字化记录与模拟相比具有存储的高可靠性、利用空间的高有效性和检索的方便性等优点而被广泛用于多媒体信息的存储,尤其是对现场声音采集、相关特征分析与处理,使在现场采访中使用多功能的数字采访机成为了一种必然的趋势。为了更好地满足市场需要,笔者研制了一种新的数字采访机。
1.系统功能。本系统能够实现数字录音、随机播放、声控放音(每段录音加语音标识,在放音时只需口述所要语音段的语音标识即可自动找到每段录音并回放)对非特定人的小词汇识别、(决定是否开启录音功能,也就是无人时的应答自动录音)编缉功能、增加,删除数字录音段。为了提高有限空间的存储率,本系统采用DSP技术和高效语音压缩技术,具有较高技术含量和较广泛的应用。
2.DSP的核心部件。为了简化设计,提高系统的可行性和灵活性,DSP选用Tl公司的TMS320VC 5402处理语音和进行系统控制。采用TI公司的TMS320VC5402为核心部件,配合A/D、D/A电路、控制电路和接口电路,实现录音、放音和自动应答功能。TMS320VC5402具有优化的CPU结构。内部有1个40位的算术逻辑单元,2个40位的累加器,2个40位加法器,1个17×17的乘法器和1个4O位的桶形移位器。有4条内部总线和2个地址产生器。此外,内部还集成了维特比加速器,用于提高维特比编译码的速度。
3.电路原理设计。由于TMS320VC 5402在运算方面有很强的能力,但在事物调度方面并不擅长,因此,应选用一片AT89C51与之配合。
如图1所示,本系统由DSP最小系统加外扩的串行接口、存储器接口和中断口及可编程I/O口组成。快闪存储器为一种可擦写非易失性存储器件,已日益广泛地用于蜂窝移动电话、掌上PC机,无绳电话等设备的程序和数据存储,而且正不断地向小型化、轻量化、低电耗、高可靠型发展,其集成度也已由原来的64MB提高到256MB。上电复位后,TMS320VC5402首先从闪速存储器(Flash)中引导装入执行程序,而模拟语音通过麦克风或电话线输入,经AD50的A/D转换后变成串行数据,通过TMS320VC5402的串口sport0传入DSP内部进行编码处理。编码后的参数存放在扩展的Flash中保存,也可根据需要通过IDMA传送到PC机上。解码过程是由键盘发出解码控制命令后,经由AT89C51控制DSP从Flash读出编码信息,并在内部完成解码,通过串口Sport0将重建数字语音输出,以D/A转换后通过扬声器放送。
在DSP与Pc机之间,用了一片GAL作为两者之间的接口电路。在DSP端,使用了C5402片内的增强型主机接口HP1,用来与主设备或主处理器接口。外部主机是HPI直接访问CPU的存储空间,包括存储器映像寄存器。采集到PC中的语音数据,需要将其保存为标准的音频文件。本设计中将其保存为Microsoft公司提供的一种标准格式文件-WAV文件,使读取非常方便。
4.G.728算法原理。本系统采用G.728标准进行语音编码。G.728标准是对电话频带语音信号进行处理,采样频率为8kHZ。G.728利用后向自适应预测技术对短时谱包络和增益进行预测,预测系数是用先前量化过的语音信号来提取和更新。首先由5个连续的语音样点形成一个5维语音矢量,码本激励中共有1024个5维的码矢量,对于每个输入语音矢量,编解码利用合成分析法从码中搜索出最佳码矢量,然后将10bits的码本标号送出去。每4个相邻的输入矢量构成一个自适应周期(或称为帧),每帧更新一次LP系数:激励的增益也是利用先前量化激励信号的增益信息逐矢量地进行提取和更新。
解码端也是逐矢量地进行,根据接收到的10bits码本标号,从激励码本中找到相应的激励矢量,经过增益调整后,得到激励信号。将激励信号输入综合滤波器、合成语音信号,再将合成的语音信号进行自适应后滤波处理,以增强语音的主观感觉质量。
G.728的算法能够获得高质量的语音合成,采用了高阶的线形预测滤波器,并且采用了精度很高的数据表示方式,计算量很大。主体控制程序用C语言编写,可读性强,可移植性高,易于系统改进。语音编解码部分是程序的核心部分,完成对语音信号的编码和对已经进行压缩语音的合成重建过程,语音编解码的任务由TI汇编语言完成,并进行了优化和改进,保证了程序有较高的效果,也充分利用了DSP芯片的快速运算特性。
5.软件设计。本系统的控制可以有两种形式,一是按键控制,另一种是语音控制。其中按键控制是主要的,语音控制只是一个补充,在语音按键开启的情况下进行语音控制。录音设计中有两个地方需要编程:一是DSP端的设计,用汇编语言完成,主要任务是初始化,管理DSP的资源,完成语音数据采集及特定处理:另一是PC机端的设计,用C语言来完成,主要任务是与DSP进行数据交换,对语音数据进行存储,提供一个GUI(图形用户界面)以便用户可以控制整个运行过程。
主程序流程如图2所示。本语音系统由按键引发中断,DSP根据控制部分和检测口的住处进行分析、判断,进入相应的功能模块程序,完成各种功能。
其中在音控子程序中,首先要完成语音训练和语音识别,才能实现音控,如图3。在录音子程序中,要在每段录音上加语音标识,以便在寻找此录音段时可以顺利进行。
6.结论。本文主要介绍了一种基于DSP技术的多功能数字采访机,它集成了语音识别、语音压缩编解码、语音号处理器和大容量存储器的数据管理等技术,该系统结构合理,设计简洁紧凑,能实现较长时间的语音压缩,同时能够实现音控。它的用途非常的广泛,既可作为整体设计用于采访,又可配合电话机作为录音电话,经稍许修改还可应用于电子记事本。
作者单位 廊坊师范学院
1.系统功能。本系统能够实现数字录音、随机播放、声控放音(每段录音加语音标识,在放音时只需口述所要语音段的语音标识即可自动找到每段录音并回放)对非特定人的小词汇识别、(决定是否开启录音功能,也就是无人时的应答自动录音)编缉功能、增加,删除数字录音段。为了提高有限空间的存储率,本系统采用DSP技术和高效语音压缩技术,具有较高技术含量和较广泛的应用。
2.DSP的核心部件。为了简化设计,提高系统的可行性和灵活性,DSP选用Tl公司的TMS320VC 5402处理语音和进行系统控制。采用TI公司的TMS320VC5402为核心部件,配合A/D、D/A电路、控制电路和接口电路,实现录音、放音和自动应答功能。TMS320VC5402具有优化的CPU结构。内部有1个40位的算术逻辑单元,2个40位的累加器,2个40位加法器,1个17×17的乘法器和1个4O位的桶形移位器。有4条内部总线和2个地址产生器。此外,内部还集成了维特比加速器,用于提高维特比编译码的速度。
3.电路原理设计。由于TMS320VC 5402在运算方面有很强的能力,但在事物调度方面并不擅长,因此,应选用一片AT89C51与之配合。
如图1所示,本系统由DSP最小系统加外扩的串行接口、存储器接口和中断口及可编程I/O口组成。快闪存储器为一种可擦写非易失性存储器件,已日益广泛地用于蜂窝移动电话、掌上PC机,无绳电话等设备的程序和数据存储,而且正不断地向小型化、轻量化、低电耗、高可靠型发展,其集成度也已由原来的64MB提高到256MB。上电复位后,TMS320VC5402首先从闪速存储器(Flash)中引导装入执行程序,而模拟语音通过麦克风或电话线输入,经AD50的A/D转换后变成串行数据,通过TMS320VC5402的串口sport0传入DSP内部进行编码处理。编码后的参数存放在扩展的Flash中保存,也可根据需要通过IDMA传送到PC机上。解码过程是由键盘发出解码控制命令后,经由AT89C51控制DSP从Flash读出编码信息,并在内部完成解码,通过串口Sport0将重建数字语音输出,以D/A转换后通过扬声器放送。
在DSP与Pc机之间,用了一片GAL作为两者之间的接口电路。在DSP端,使用了C5402片内的增强型主机接口HP1,用来与主设备或主处理器接口。外部主机是HPI直接访问CPU的存储空间,包括存储器映像寄存器。采集到PC中的语音数据,需要将其保存为标准的音频文件。本设计中将其保存为Microsoft公司提供的一种标准格式文件-WAV文件,使读取非常方便。
4.G.728算法原理。本系统采用G.728标准进行语音编码。G.728标准是对电话频带语音信号进行处理,采样频率为8kHZ。G.728利用后向自适应预测技术对短时谱包络和增益进行预测,预测系数是用先前量化过的语音信号来提取和更新。首先由5个连续的语音样点形成一个5维语音矢量,码本激励中共有1024个5维的码矢量,对于每个输入语音矢量,编解码利用合成分析法从码中搜索出最佳码矢量,然后将10bits的码本标号送出去。每4个相邻的输入矢量构成一个自适应周期(或称为帧),每帧更新一次LP系数:激励的增益也是利用先前量化激励信号的增益信息逐矢量地进行提取和更新。
解码端也是逐矢量地进行,根据接收到的10bits码本标号,从激励码本中找到相应的激励矢量,经过增益调整后,得到激励信号。将激励信号输入综合滤波器、合成语音信号,再将合成的语音信号进行自适应后滤波处理,以增强语音的主观感觉质量。
G.728的算法能够获得高质量的语音合成,采用了高阶的线形预测滤波器,并且采用了精度很高的数据表示方式,计算量很大。主体控制程序用C语言编写,可读性强,可移植性高,易于系统改进。语音编解码部分是程序的核心部分,完成对语音信号的编码和对已经进行压缩语音的合成重建过程,语音编解码的任务由TI汇编语言完成,并进行了优化和改进,保证了程序有较高的效果,也充分利用了DSP芯片的快速运算特性。
5.软件设计。本系统的控制可以有两种形式,一是按键控制,另一种是语音控制。其中按键控制是主要的,语音控制只是一个补充,在语音按键开启的情况下进行语音控制。录音设计中有两个地方需要编程:一是DSP端的设计,用汇编语言完成,主要任务是初始化,管理DSP的资源,完成语音数据采集及特定处理:另一是PC机端的设计,用C语言来完成,主要任务是与DSP进行数据交换,对语音数据进行存储,提供一个GUI(图形用户界面)以便用户可以控制整个运行过程。
主程序流程如图2所示。本语音系统由按键引发中断,DSP根据控制部分和检测口的住处进行分析、判断,进入相应的功能模块程序,完成各种功能。
其中在音控子程序中,首先要完成语音训练和语音识别,才能实现音控,如图3。在录音子程序中,要在每段录音上加语音标识,以便在寻找此录音段时可以顺利进行。
6.结论。本文主要介绍了一种基于DSP技术的多功能数字采访机,它集成了语音识别、语音压缩编解码、语音号处理器和大容量存储器的数据管理等技术,该系统结构合理,设计简洁紧凑,能实现较长时间的语音压缩,同时能够实现音控。它的用途非常的广泛,既可作为整体设计用于采访,又可配合电话机作为录音电话,经稍许修改还可应用于电子记事本。
作者单位 廊坊师范学院