论文部分内容阅读
近年来,互联网的迅速发展和网络音频数据量的急剧上升使得对网络音频数据的分类处理需求日益复杂。网络多媒体数据的获取与预处理则是各种音频处理应用的共同基础。本文的研究内容是网络多媒体数据的获取、音频剥离解码和基于音频分类标注的预处理,并设计和开发一个网络音频数据分类标注与前处理系统。具体工作内容如下:(1)在网络数据获取方面,搜索指定范围内的多媒体数据,对于可直接下载的网络数据则直接下载,并以文件为单位进行后续的音频帧剥离与解码、类别标注和识别检索等处理;对于只能在线播放的网络流媒体数据,则首先对网络流媒体协议进行解析,根据所用协议类型,生成基于实时流传输协议RTSP(Real Time Streaming Protocol)的虚拟客户端,并以流的形式将数据下载。平台采用ffmpeg实现对主流多媒体编码格式和实时流媒体的音频剥离与解码。(2)在音频数据类别标注方面,采用了支持向量机(Support Vector Machine,SVM)方法对音频数据进行类别判定,首先将音频数据分为静音类和非静音类,再对非静音类划分为语音类和非语音类,其中语音类再划分成纯语音类和非纯语音类,非语音类则划分为音乐类和环境类。制定了一个具体的标注规范,将对应文件的音频类别及其起止时间标注在文件的末尾。(3)在系统设计方面,采用自顶向下的模块化设计方法,从系统的需求出发进行分析,将系统分为数据获取、节目管理、解码信息和文件结构信息提取、伴音剥离、音频分类与标注、结果输出与外部功能挂载七大模块,设计了各模块的工作流程与接口,各模块协同实现平台的数据获取、音频剥离与解码、音频数据类别标注和外部模块加载等功能。从而可根据需要,使平台成为具有指定处理功能的系统。本文采用C++完成了系统的实现工作,并进行了实际的测试。测试结果表明,系统的功能达到了预期的目标,所采用的网络数据获取和分类标注方法具有良好的效果,且系统对外接口能方便挂载关键词检测、样例检索等功能模块,系统运行稳定。