论文部分内容阅读
爆炸式增长的语音数据为存储与传输带来极大困难,现有方法难以实时应对海量语音频域数据.因此本文提出一种增量式学习的语音字典构造方法,该方法先将语音时域信号经短时傅里叶变换处理后转换为各窗频谱幅值,再将高维空间向量投影到低维空间,并以字典中的少数基向量线性拟合当前窗向量.进而通过存储基向量的标识和拟合系数完成对当前窗向量的存储,把无法拟合的窗向量经处理后加入字典,实现增量式学习.解压过程依据用户请求将字典中指定条目经线性拟合实现.实验结果表明,本方法能大幅度压缩语音频谱包络,适用于受带宽限制下实时高采样率的流