论文部分内容阅读
未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。随着科技发展和人们生活水平提高,多媒体播放器已经在市场上得到了极大的推广,将语音识别技术应用于多媒体播放器具有重大的意义。论文的目的在于设计一个带语音识别功能的高清多媒体播放器,对语音识别算法进行研究分析并提出改进措施,算法源码可以很方便的移植到其他嵌入式设备上,对后续语音识别技术的研究、改进及应用有着重大的意义。论文对多媒体播放器进行了硬件和软件设计。主控芯片采用全志公司研发的以ARM926EJ-S为内核的F15芯片,硬件电源管理模块使用了高度集成的电源系统管理芯片AXP188。对多媒体播放器的GUI系统进行了设计与实现,在此基础开发了音乐、电影等多媒体应用程序。在多媒体播放器中设计并实现了孤立词语、非特定人的计算机指令语音识别系统。论文深入研究并分析了在语音识别过程中使用到的各种算法理论,在对比分析中选择了适合嵌入式多媒体播放器应用的算法。选用基于短时过零率和短时能量的双门限比较法作为语音端点检测算法;选用MFCC(Mel频率倒谱系数)作为语音的特征参数,在特征参数提取中使用高效率的基-4FFT快速傅里叶变换进行频谱分析;在语音模板库匹配阶段使用DTW(动态时间规整法)算法进行识别结果的判别。对双门限语音端点检测算法做了改进,有效地减少了指令被截断的现象。为了减少端点检测的误检率对最终识别效果的影响,对DTW算法做了一些改进。开发了语音识别应用程序,方便用户与多媒体播放器进行交互。经过系统测试,设计出来的多媒体播放器用户界面友好、美观,能流畅播放1080P电影、音乐、图片等多媒体文件,语音识别率高、实时性好,可以通过语音控制多媒体播放器进行电影播放、音乐播放、进入、退出等操作,验证了算法的可行性。