论文部分内容阅读
摘 要:非特定的人孤立的词的语音识别是应用最为广泛的一种语音识别技术,而当前这方面的硬件设备成本较高,使得难以大量推广应用。本文通过对孤立词语音特点的研究并结合单片机等硬件设备,设计成为了一种基于非特定人孤立词的语音识别系统。
关键词:语音识别技术;语音信号;单片机
1 前言
目前,全球语音识别技术市场规模超过30亿美元,近年来年增长率保持在25%以上,未来语音识别市场被看好,其中电信行业,移动应用领域,都会呈现出爆发式增长。此外,语音识别技术还能在语音翻译领域、语音游戏领域、语音搜索领域大展拳脚[1]。
2 总体方案
利用单片机STC11L08XE作为本系统的核心控制模块。通过驻极体话筒采集信号、编程传入单片机,单片机将数据进行适当处理后传输到继电器模块,实现风扇的开关及风速大小的显示。在语音模块中,主要靠声音来实现各种显示要求的选择与切换。
3 系统硬件设计
3.1 电源模块
STC11L08XE的电源分两种,即内核电源(VDD)和I/O口电源(VDDH)。I/O口电源采用5V电压,而内核电源则为3.3V或者更低。尽管这种语音芯片的工作电压范围很大,但是为了使芯片内核运行更加稳定,同时又保证I/O口及外部扩展部件的工作电压要求,电源电路采用芯片7805和SPY0029分别提供5V和3.3V电压完成对整个系统供电[2]。
3.2 继电器模块
继电器模块采用的是SRD-12VDC-SL-C,此模块共有五个脚,有三个在一边,另外两个一边,三个脚的那边两边的脚是线圈,加12VDC直流电压,不区分正负方向,是电压驱动,线圈直流电阻或者灵敏度不同稍有区别。中间一个脚是触点的COM端,另外一边两个脚正向看,左边是常开,右边是常闭[3]。
3.3 语音模块
3.3.1 语音识别系统简介。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。非特定人语音识别模块[4]以LD3320语音识别芯片为核心。LD3320芯片是一款“语音识别“专用芯片。该芯片高度集成化,外围只需要增加少量的器件就可以构成完整的语音识别方案。
3.3.2 语音识别系统设计。采用STC11L08XE单片机,对风扇的整个运行过程进行实时监控,提供的语音压缩算法以及语音识别函数使用非常灵活方便,这为设计过程提供了极大方便。通过语音命令控制BPWMO输出占空比,辅以HIP4080高频全桥驱动电路,很好的实现用H桥控制电流正转反转,而且最大驱动电流可达2.5A,驱动电压80V。完全可以满足电扇的驱动要求。
3.3.3 语音识别系统工作原理。本系统是基于STC11系列单片机,采用驻极体话筒采集信号,以电容的形式进行传输,语音模块采用的是LD3320模块,单片机采用的是STC11L08XE单片机,系统外部设备中采用了两个继电器来控制风扇开关及风速大小。
首先,驻极体话筒接收来自人说话的语音信号并经过去噪系统,通过端点检测减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。再通过特征语音的提取。如果和参照模版相同,则匹配模版,输出识别结果。
3.3.4 语音识别系统电路模块。本芯片的各种操作,全都必须通过寄存器的操作来完成。比如设置标志位、读取状态、向FIFO写入数据等。寄存器读写操作有2种方式,即标准并行方式和串行SPI方式。而LD3320支持SPI接口和并行接口的非特定语音识别模块,板载咪头和有源晶振,方便在电子产品中实现语音识别、声控和人机对话功能。
3.3.5 语音识别系统使用模式。LD3320有两种使用模式,即“触发识别模式”和“循环识别模式”,用户可以通过编程,设置两种不同的用户使用模式。本设计采用的是循环识别模式。
循环识别模式:系统的主控MCU反复启动识别过程。如果没有人说话就没有识别结果,则每次识别过程的定时到时候在启动一个识别过程;如果有识别结果,则根据识别作相应处理后(比如启动风扇)再启动一个识别过程。
4 系统软件设计
4.1 主程序流程设计
给单片机上电,系统初始化,程序开始执行。最先发送地址,程序对进行的应答地址即指令语句进行监视,当相应语音下答时,执行相应子程序,显示相应内容。
4.2 语音识别流程设计
语音识别系统开启后,驻极体话筒接受来自人的声音并进行录音,首先进行预处理将信号分段来分析其特征参数,然后进行端点检测即从包含语音的一段信号中确定出语音的起始点和结束点。再将参数提取出并生成模版与原始模版匹配。若成功则控制风扇的运行。若未结束实验,则继续输入语音进行录音,重复上述步骤。
5 系统调试
本节将对前文所述系统进行调试,对实际效果进行说明,主要对STC11L08XE单片机的编程、语音识别模块、外设及风扇的驱动进行调试。
5.1 单片机编程调试
本系统采用STC_ISP编程下载器对单片机进行程序下载调试。首先对软件进行设置,第一步选择单片机型号(本系统采用STC89C52),第二部选择串行口(本人电脑采用串行口COM3),其他的可以不用设置。然后打开事先准备好的测试程序,单击Download/下载按钮,等待片刻,给单片机上电,等待程序下载完毕。若程序无法顺利下载,可微调波特率。
5.2 语音识别模块调试
本系统采用LD3320语音芯片,首先打开开关,指示灯显示三下表面可以进行正常录音。若灯没亮,则可能插头松开了或者语音模块出现问题。
5.3 外部设备调试
系统控制板中含有LED指示灯,经过前面两步检查,已经测试单片机可以下载程序,这里需要通过继电器来控制灯的开关,当输入语音时,若LED显示灯点亮,这说明外设的正确性。
5.4 风扇调试
本系统使用小功率电风扇,能够完成实验中的控制风速大小的目的的装置。
结束语
本文主要对非特定人孤立词语音识别系统的硬件组成部分(包括方案的设计、功能的设计、芯片的选型以及硬件外围电路的设计)和系统软件(包括了主程序的设计、语音识别)进行了研究,其结果具有一定的实用价值。
参考文献
[1]谢锦辉.线性预测HMM在语音识别、压缩和增强中的应用[D].华中理工大学,1990:11~13.
[2]赵力.语音信号处理[M].北京:机械工业出版社,2003:100~103.
[3]何强.C编程[M].北京:清华大学出版社,2002:136~139.
[4]张雄伟,陈亮等.现代语音处理技术及应用[M].北京:机械工业出版社,2006:89~19.
作者简介:潘言全(1963-),男,硕士,副教授,主要从事机电等方面的科研与教学。
关键词:语音识别技术;语音信号;单片机
1 前言
目前,全球语音识别技术市场规模超过30亿美元,近年来年增长率保持在25%以上,未来语音识别市场被看好,其中电信行业,移动应用领域,都会呈现出爆发式增长。此外,语音识别技术还能在语音翻译领域、语音游戏领域、语音搜索领域大展拳脚[1]。
2 总体方案
利用单片机STC11L08XE作为本系统的核心控制模块。通过驻极体话筒采集信号、编程传入单片机,单片机将数据进行适当处理后传输到继电器模块,实现风扇的开关及风速大小的显示。在语音模块中,主要靠声音来实现各种显示要求的选择与切换。
3 系统硬件设计
3.1 电源模块
STC11L08XE的电源分两种,即内核电源(VDD)和I/O口电源(VDDH)。I/O口电源采用5V电压,而内核电源则为3.3V或者更低。尽管这种语音芯片的工作电压范围很大,但是为了使芯片内核运行更加稳定,同时又保证I/O口及外部扩展部件的工作电压要求,电源电路采用芯片7805和SPY0029分别提供5V和3.3V电压完成对整个系统供电[2]。
3.2 继电器模块
继电器模块采用的是SRD-12VDC-SL-C,此模块共有五个脚,有三个在一边,另外两个一边,三个脚的那边两边的脚是线圈,加12VDC直流电压,不区分正负方向,是电压驱动,线圈直流电阻或者灵敏度不同稍有区别。中间一个脚是触点的COM端,另外一边两个脚正向看,左边是常开,右边是常闭[3]。
3.3 语音模块
3.3.1 语音识别系统简介。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入。非特定人语音识别模块[4]以LD3320语音识别芯片为核心。LD3320芯片是一款“语音识别“专用芯片。该芯片高度集成化,外围只需要增加少量的器件就可以构成完整的语音识别方案。
3.3.2 语音识别系统设计。采用STC11L08XE单片机,对风扇的整个运行过程进行实时监控,提供的语音压缩算法以及语音识别函数使用非常灵活方便,这为设计过程提供了极大方便。通过语音命令控制BPWMO输出占空比,辅以HIP4080高频全桥驱动电路,很好的实现用H桥控制电流正转反转,而且最大驱动电流可达2.5A,驱动电压80V。完全可以满足电扇的驱动要求。
3.3.3 语音识别系统工作原理。本系统是基于STC11系列单片机,采用驻极体话筒采集信号,以电容的形式进行传输,语音模块采用的是LD3320模块,单片机采用的是STC11L08XE单片机,系统外部设备中采用了两个继电器来控制风扇开关及风速大小。
首先,驻极体话筒接收来自人说话的语音信号并经过去噪系统,通过端点检测减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。再通过特征语音的提取。如果和参照模版相同,则匹配模版,输出识别结果。
3.3.4 语音识别系统电路模块。本芯片的各种操作,全都必须通过寄存器的操作来完成。比如设置标志位、读取状态、向FIFO写入数据等。寄存器读写操作有2种方式,即标准并行方式和串行SPI方式。而LD3320支持SPI接口和并行接口的非特定语音识别模块,板载咪头和有源晶振,方便在电子产品中实现语音识别、声控和人机对话功能。
3.3.5 语音识别系统使用模式。LD3320有两种使用模式,即“触发识别模式”和“循环识别模式”,用户可以通过编程,设置两种不同的用户使用模式。本设计采用的是循环识别模式。
循环识别模式:系统的主控MCU反复启动识别过程。如果没有人说话就没有识别结果,则每次识别过程的定时到时候在启动一个识别过程;如果有识别结果,则根据识别作相应处理后(比如启动风扇)再启动一个识别过程。
4 系统软件设计
4.1 主程序流程设计
给单片机上电,系统初始化,程序开始执行。最先发送地址,程序对进行的应答地址即指令语句进行监视,当相应语音下答时,执行相应子程序,显示相应内容。
4.2 语音识别流程设计
语音识别系统开启后,驻极体话筒接受来自人的声音并进行录音,首先进行预处理将信号分段来分析其特征参数,然后进行端点检测即从包含语音的一段信号中确定出语音的起始点和结束点。再将参数提取出并生成模版与原始模版匹配。若成功则控制风扇的运行。若未结束实验,则继续输入语音进行录音,重复上述步骤。
5 系统调试
本节将对前文所述系统进行调试,对实际效果进行说明,主要对STC11L08XE单片机的编程、语音识别模块、外设及风扇的驱动进行调试。
5.1 单片机编程调试
本系统采用STC_ISP编程下载器对单片机进行程序下载调试。首先对软件进行设置,第一步选择单片机型号(本系统采用STC89C52),第二部选择串行口(本人电脑采用串行口COM3),其他的可以不用设置。然后打开事先准备好的测试程序,单击Download/下载按钮,等待片刻,给单片机上电,等待程序下载完毕。若程序无法顺利下载,可微调波特率。
5.2 语音识别模块调试
本系统采用LD3320语音芯片,首先打开开关,指示灯显示三下表面可以进行正常录音。若灯没亮,则可能插头松开了或者语音模块出现问题。
5.3 外部设备调试
系统控制板中含有LED指示灯,经过前面两步检查,已经测试单片机可以下载程序,这里需要通过继电器来控制灯的开关,当输入语音时,若LED显示灯点亮,这说明外设的正确性。
5.4 风扇调试
本系统使用小功率电风扇,能够完成实验中的控制风速大小的目的的装置。
结束语
本文主要对非特定人孤立词语音识别系统的硬件组成部分(包括方案的设计、功能的设计、芯片的选型以及硬件外围电路的设计)和系统软件(包括了主程序的设计、语音识别)进行了研究,其结果具有一定的实用价值。
参考文献
[1]谢锦辉.线性预测HMM在语音识别、压缩和增强中的应用[D].华中理工大学,1990:11~13.
[2]赵力.语音信号处理[M].北京:机械工业出版社,2003:100~103.
[3]何强.C编程[M].北京:清华大学出版社,2002:136~139.
[4]张雄伟,陈亮等.现代语音处理技术及应用[M].北京:机械工业出版社,2006:89~19.
作者简介:潘言全(1963-),男,硕士,副教授,主要从事机电等方面的科研与教学。