论文部分内容阅读
20世纪90年代,多媒体信息检索技术的研究引起了人们的极大兴趣。开始阶段,人们的注意力主要集中在图像检索和视频检索这两个方面。但随着音频数据的大量出现,人们越来越认识到音频检索的重要性。同时,音频信号数字处理、语音识别、说话人识别等技术的日益成熟,则为音频检索的研究提供了必要的技术准备。
音频检索技术在相当多的领域中都具有极大的应用价值,例如,远程教学、卫生医疗、数字图书馆、环境监测、新闻节目检索和娱乐节目的编辑和制作等。本文在分析音频信号处理的基本原理、研究现状的基础上,围绕其中的两个分支——语音检索和音乐检索进行了探索性的研究。主要工作可以归纳为以下四个部分:
1. 一种基于小波变换的语音检索算法。实现了在语音库中查找特定人的语音记录。该方法利用小波变换的多分辨率特性,在小波域的不同近似分量级,实现了多级语音记录查询的功能。与以往的基于DWT域的多级语音检索算法相比较,该方法仅以三个统计特性代替小波系数,使得算法的性能指标有了大幅度的改进。
2.一种新颖的混合语音检索算法。该算法利用ICA(Independent Component Analysis)的盲分离特性,将包含两个人声音的混合语音分离成只含一个人的单一语音,以分离出来的单一语音为新样本建立新的语音库,并与基于混合语音的语音库建立链接关系。查询时,以DTW算法进行匹配检索,从而实现了基于混合语音的检索功能。
3.一种新颖的结合信息隐藏技术的语音检索算法。该算法将保密语音和伪语音分割成多段,利用经典的LSB算法分别隐藏到不同的音频,并存储在磁盘空间中。提取语音码流时,利用小波变换第一级细节分量系数能量的大小找到相应的载体音频,提取其中的语音码流,并建立语音库。利用特定人语音检索技术,检出相应的语音码流。合并语音码流得到真正的保密语音。实验研究表明:此算法的查准率和查全率可以达到很高的水平,为信息隐藏技术的发展开辟了一条新的研究道路,同样扩大了语音检索技术的应用范围。
4.一个音乐检索系统的研究和实现。在分析音乐的旋律及其表达的基础上,实现了基于旋律的音乐检索系统。该系统包含三部分:音乐数据库的构建、用户前端旋律的输入及特征提取、旋律特征的匹配检索及结果输出。并同时支持手工输入和哼唱输入两种查询方式。
最后,对全文进行了总结,提出尚待进一步研究的问题。