论文部分内容阅读
随着互联网技术的快速发展,网络信息中包含的音频、视频等多媒体信息比重越来越重,因而人们对多媒体信息的检索需求也日益增长。音频信息检索是多媒体信息检索的重要分支,其主要依据是听觉特征值。音频检索的前提是音频识别,而音频信息的结构化则是音频识别的重要步骤之一。音频信息结构化是指基于某种标准,将音频分割成长短不一,且在该标准下具有相同属性的独立片段,每一段音频信号都包含很多信息,从内容上可以分为三层——物理样本级、声学特征级和语义级,信息结构化一般是基于声学特征。本文通过研究大量基于内容的音频分割算法发现,现有的分割算法大都集中于音频不同类型片段的分割,对于同类型的音频片段自身,却没有更为精细的划分。这对于更高效的音频识别检索、乐谱分析等造成了负面影响。本文以钢琴乐音为研究对象,提出了一种新的基于方差加权和的音频分割算法实现钢琴乐音的独立音符分割。该算法结合了基于贝叶斯准则(Bayesian Information Criterion,BIC)和信息熵的音频分割算法的思想,以同类型的钢琴乐自身音符分割为目的,其结果甚至可以为语义识别、分析等提供所需的结构化信息。该算法针对单手弹奏的纯钢琴乐音效果显著,对于自然环境下录制的钢琴入门曲,可以有效地分割出每一个独立音符,为之后的乐谱识别和语义分析提供数据基础。由于现实生活中,钢琴音乐大都为双手同时演奏,因此本文所提出的基于方差加权和的音频分割算法需要通过预处理,即对混音信号进行盲分离后才能适用。针对这种情况,本文采用了独立分量分析(Independent Component Analysis, ICA)的信号分离算法,并分析了常用线性函数对音频信号分离的不同影响。实验表明,将两段单独录制的单手弹奏的钢琴音乐,混音后经ICA算法分离,得到的分离信号基本与原录制信号一致。因而,经过ICA分离后的混音信号,可以使用方差加权和算法进行后续分割。至此,双手弹奏的钢琴乐实现了独立音符的分割,并达到了良好的效果。