论文部分内容阅读
目前,随着科学技术的不断进步和人民群众生活水平的不断提高,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展,多声道环绕声技术应运而生。特别是MP4播放器在市场上的亮相,引发了人们对MP1、MP2、MP3等音频格式技术标准的诸多联想,加上一些商家以及技术“权威”的广告撰文,可说是众说纷纭,概念模糊。本文从MPEG组织的技术标准入手,对MP1、MP2、MP3等的相关技术进行了多层次的分析和论述,以加强业内人士对此类技术及其相关标准的了解和掌握。
MPEG-1 Audio
在音频压缩标准化方面取得巨大成功的是MPEG-1 Audio(音频),即ISO/IEC 11172-3。
MPEG是Motion Pictures Expert Group(运动图象专家组)的缩写,1987年成立,是专门从事视/音频压缩平台的标准开发和制造的全球性组织,成员单位遍及全球,约有60多家。其开发和制定的系列标准有MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7、MPEG-21等,但目前经ITU(国际电信联盟)认可通过的只有MPEG-1、MPEG-2和MPEG-4三个技术标准。在MPEG-1技术标准中,主要有MPEG-1 Video(视频)和MPEG-1Audio两个编码方案;而在MPEG-1Audio编码方案中又有三种音频压缩模式或称为三个不同的Layer(层)技术标准,英文全称是:MPEG-1 Audio Layer 1、MPEG-1 Audio Layer 2和MPEG-1 Audio Layer 3,简称分别为MP1、MP2和MP3。
1、MP1———技术标准
MP1技术标准人们可能不熟悉,但提到VCD唱片和VCD唱机,人们一定非常熟悉和了解,可以说VCD是人们较早接触到的利用数字压缩技术进行播放的音视频产品或播放器,而VCD中使用的音频压缩技术标准和方案就是MP1。
早在1992年,MPEG组织就推出了MPEG-l标准,即MPEG-1 Video和MPEG-1 Audio Layer 1,当时人们无不为其高效的压缩技术(1∶10至1∶12)和较出色的图像质量惊叹不已,于是MP1成为欧洲VCD的基础,红极全球,给投资商(为标准制定提供研发费用的商家)带来了极大的回报。
如今看来MPEG-1标准的352×288图象分辨率和视频质量相对较低,属于数字LDTV(Low Definition Television:低清晰度电视)层面,只适用于家庭环境,不符合广播电视未来数字化(数字电视的目标是HDTV,即High Definition Television:高清晰度电视)发展的技术要求。
没有MP1就没有MP2,MP1是MP2编码方案的简化形式,所以MP1最适合于消费者应用,如:用于家庭数字记录等场合,可提供192kb/s的双声道立体声。
2、MP2———技术标准
MP2技术标准是MP1技术标准的复杂(进步)形式。MP2技术标准采用的是MUSICAM(自适应掩蔽模型的通用子带综合编码和复用)技术,所以又称为MUSICAM。
由于MP2技术适当的复杂程度和优秀的声音质量,其数字音频系统达到了CD质量,目前在广播电台、电视台的数字演播室、DAB(数字音频广播)、DVB(数字视频广播)等数字节目的制作、交换、存储、传送中得到了广泛应用。
MP2技术已被欧洲MPEG采纳作为宽带、高质量的数字音频压缩标准。它和AC-3(杜比声频编码标准3)一样,都是被IEC(国际电工委员会)批准为全球数字电视标准中的数字音频压缩标准。所不同的是:AC-3绑定于ATSC(先进电视系统委员会[美国])数字电视标准;MP2绑定于DVB(数字视频广播制[欧洲])数字电视标准。
MP2技术标准的数字音频压缩系统,是基于两种机理来减少音频信号的码率。一种机理是利用统计相关性来去除音频信号的冗余度;另一种是不相干压缩,是考虑人耳的心理声学现象,如:频谱掩蔽和时间掩蔽。
我国卫星数字电视系统选定的DVB-S标准、有线数字电视系统认可的DVB-C标准、以及目前用于试验的地面数字(移动)电视系统DVB-T标准中的数字音频压缩标准,都是以MP2标准为蓝本,所不同的是DVB-T数字音频压缩采用的是MP2标准子标准的 5.1声道方案,其标准可以向下兼容MP1标准。
采用MP2编码压缩技术,正是因为它可以更方便、准确地根据人耳心理声学分析的结果来进行分配,以便人耳察觉不出量化的噪声。保证了数字音频编码压缩后的信号,仍然保持CD或接近CD的音质,得到了人们的认可和广泛应用。
3、MP3———技术标准
MP3技术标准人们应该是更加熟悉,MP3技术标准的特点是在低码率条件下,有高水准的声音质量,以及无限的开放性,这些特点使其成为软解压及网络音频广播的宠儿。
在ISO/IEC 13818-2(MPEG-2标准)中规定了:“MPEG-1 Audio还可以定义在MPEG-2 Audio中”。也就是说,MP1、 MP2、MP3的编码技术及方案不仅适用于MPEG-1中,而且也适用于MPEG-2中。实际上MPEG-2中音频标准与MPEG-1中一样,只是MPEG-2音频在具体的应用中以MP2为主,即MUSICAM音频压缩技术。
4、MP4———不是技术标准,是商品。
MP4这个名称是由GMO(Global Music Outlet:全球音乐网站)提出并确定的,MP4不是技术标准,也不是MPEG-4技术标准的简称,更不是MPEG-1 Audio的Layer 4(第四层)技术标准。MP4是商品。
第一,之所以说MP4是一个商品,是因为MP 4出现的主要目的就是“意图采用一种带有版权限制的音乐格式,去取代目前在网络上日益泛滥的MP3”。
也就是说,MP4真正的含义则是因为版权问题,这一点和MP3不同。对唱片公司来说,MP3的问题就是流行的范围太广,传播的速度太快,技术的掌握太容易,使得民众忽视了著作者和出版者应享有的版权待遇。其表现为MP3的大肆传播以及贩卖,这实际上已经侵犯了音乐出版物的版权。于是,GMO针对MP3提出了“基于AT&T公司授权的AAC改良技术”,即在AAC技术标准的基础上,增加“音乐传播认证”功能,并改名为A2B技术(A2B与AAC虽有一些小小的不同,但实际上还是AAC技术,目前国外的一些技术文献将A2B和AAC视为同一种技术),同时在播放器中实施,为了迎合市场及民众驱向(容易接受和购买欲)的潮流,将这种播放器命名为MP4。
这样,一个旨在和无法无天无版权的MP3一较高低,依靠AAC技术标准的电子商品 ——— MP4诞生了。
由此可见,MP4这个名称的提出和其本身的技术含义没有任何联系,只是为了迎合市场,方便民众的记忆。若从技术标准及其演变情况来命名的话,应该叫做AAC或A2B,都比叫MP4有些“道理”,如图2所示。
第二,MPEG-4是一种多媒体应用技术标准,它提供了交互使用图像以及多媒体的合成技术。MPEG-4技术的主要特点是“在范围极广的比特率下,对自然以及合成音频的编码和组合,是用一种新规范包容了所有多媒体应用和开放型的技术”。如今,MPEG-4已发展成一个具体的模块(黑匣子)——— 大规模的IC(集成电路)。
第三,在MPEG-1标准中,没有的Layer 4(第四层)这个概念。MPEG-1 Audio Layer 3技术标准的发展,没有进入Layer4,而是进入MPEG-2 BC(Backward Compatible:后向兼容编码)技术标准,之后又进入MPEG-2 NBC(Non-Backward Compatible:后向不兼容编码)和MPEG-2 AAC技术标准的制定,如图2所示。
5、A2B ———融合“音乐传播认证”功能
GMO为了针对MP3,提出了“在基于AT&T公司授权的AAC技术基础上,增加音乐传播认证功能”,从而得到新的技术———A2B。A2B主要由三个部分组成。
第一部分:音频压缩技术专利
A2B是AT&T的音频压缩技术专利,A2B可以将AAC压缩比提高到1∶20而不损失音质。这样,压缩一首3分钟的歌曲仅仅需要2.25MB的数据量,这在互联网上传播和下载的速度都是非常“爽”的。
第二部分:安全数据库
A2B技术可以为民众的A2B Music(乐曲)创建一个特定的密钥,同时将此密钥存于其数据库中,并约定:“只有A2B的播放器才能播放含有这种密钥的Music”。这实际上是在商家和民众之间建立了一个条件管理和接收的系统。
第三部分:协议认证
协议认证包含了复制许可、允许复制副本数目、Music总时间、Music可以播放时间以及售卖许可等信息。
协议认证的工作原理如下:首先认证该Music内部的密钥,然后核实安全数据库中的密钥并找到其许可协议。这样就决定了Music以何种形式播放以及是否可以拷贝、贩卖。同时,数据库中的许可协议可以根据用户要求随时修改,使得A2B Music本身包含的版权信息也可以随时更换。这是一种融合了“音乐传播认证”功能的技术,解决了MP3带来的版权问题。
MPEG-2 AAC
MPEG-2标准是MPEG组织于1994年11月针对数字电视/影像提出的,其特点是音质更加完美而压缩比更加大(1∶15)。
MPEG组织在早期的ISO/IEC 11172-3(MPEG-1标准)中,规定了MPEG-1标准支持采样率为32kHz、44.1kHz和48kHz的Mono(单声道)及Stereo(立体声)或Dual mono(双声道)编码,其Layer 3标准预设为32~320 kbit/s。
在ISO/IEC 13818-3(MPEG-2 BC标准)中,规定了MPEG-2 BC标准是对MPEG-1标准的向后兼容多声道扩展方案,增加了一个“低频扩展”声道,从而提升至5个声道编码,比特率的变化范围增至1 Mbits/s。
随后,在ISO/IEC 13818-7(MPEG-2 AAC标准)中,规定了MPEG-2 AAC标准在采样率为8 kHz~96 kHz下提供1~48个声道可选范围的高质量音频编码。AAC适用于“从比特率在8kbit/s单声道的电话音质到160kbit/s多声道的超高质量音频范围内的编码,并且允许对多媒体进行编/解码”。
从MPEG-1、2标准的发展中,可以看出AAC技术的傲人之处,就是它“增加了诸如对立体声的完美再现、比特流效果音频扫描、多媒体控制、降噪优异等MP3没有的特性,使得它在音频压缩后仍能完美的再现CD音质”。
1、AAC的指导思想
ISO/IEC 13818-7(MPEG-2 AAC标准)于1997年成为国际标准,AAC有时也被称为NBC,是MPEG体系的声音压缩技术。AAC技术做的音频编码同样具有CD音质,而且占用的存储空间更小,它是MPEG-2国际标准的一部分。在MPEG-2标准制订的早期,本来是要求“将MPEG-2音频编码部分与MPEG-1保持兼容”。但后来为了适应HDTV的要求而将其定义成为一个“可以获得更高质量的多声道音频标准”。因此,这个标准理所当然必须是Advanced(先进)的,也就不必刻意要追求与MPEG-1的兼容,故而被称为MPEG-2 AAC(Advanced Audio Coding:先进音频编码)。也就是说,AAC与MP3是不兼容的,制作和播放AAC乐曲,都需要使用与MP3完全不同的技术工具。
2、AAC的工作方式
AAC之所以不兼容MP3,关键是它使用了不同的压缩处理算法,并且增加了许多新的特性。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据,其工作方式如下(如图3、图4所示):
首先,输入信号经增益控制模块,音频数据通过PQF(Polyphase Quadrature Filter:多相正交滤波器)后,被分离为4个相等的标准子带。对于每一个子带都传输一个独立的增益,作为side information(边信息)。在增益控制下的子带数据,然后以长度为256的MDCT(Mend Discrete Cosine Transform:改进离散余弦变换)来(对于瞬时条件长度为32)转换。在MDCT中使用的窗口是KBD(Kaiser-Bessel Derived:贝塞耳函数导出)窗或正弦窗,两者的频谱特性不相同可适应不同的信号。在瞬时条件下使用较短的窗口以改善时间分辨率。
MDCT 系数通过两个预报帧获得预报, 对于每一个频段使用一种独立的LMS-Adapted(Least Mean Square-Adapted:合适的最小均方)预报器。这改善了恒定信号的编码效率。预报后的残余被非均衡地量化并使用11种Huffman(编码方法)编码
中的一种来编码。
AAC还包括许多可选的附加特性。最令人感兴趣的是TNS(Temporal Noise Shaping:瞬时噪音抑制),该技术主要对瞬间信号起作用。
3、MP4的加密技术
MP4商品里面使用了加密技术,首先要认识到的是这一切都离不开网络的帮助。在网络上出售音乐的公司需要为自己的客户创建一个所谓的安全数据库,每一个用户都需要在这个数据库里面创建一个唯一的密钥。当用户以播放、复制、出售等方式去处理手头的音乐时,一切的活动都必须通过这一个密钥,结合音频格式内含的限制信息,去查询安全数据库中的许可协议,看看用户究竟有没有做这种活动的权力。数据库中的许可协议可以应用户要求随时修改,使得MP4歌曲本身包含的版权信息也可以随时更换。
4、MPEG-2和MPEG 2.5
MPEG-1和MPEG-2在音频方面都使用相同的音频编解码家族,即MP1、MP2、MP3共三层。数字越小,相对应的技术就越简单,越容易实现。MPEG-2的新音频特性主要表现在MPEG-2具有低采样率扩展以满足只具备非常有限的带宽的应用范围。新的采样频率为16kHz、22.05kHz或24kHz,比特率则扩展到 8kbps。
MPEG-2标准允许比特率低到8kbps,在该种情况下,实际有效的音频带宽需要做出限制,比如限制到3kHz。因此,实际的采样率会被减少到8kHz。采样率越低,频率分辨率就越好,时间分辨率就越差,流格式中控制信息和音频数据的消耗比就越好。由于MPEG-2定义的最低的采样率为16kHz,于是Fraunhofer便对此进行扩展,将原来MPEG-2所支持的低采样率再除以2,得到8kHz,11.025kHz和12 kHz,称为“MPEG-2.5”。
5、ACC的任意信道方式
AAC是包括5.1信道方式(MP3采用的是双声道立体声)的任意信道方式,也用于MPEG-4音频。它以CD音质为标准,可按CD约1∶20大小压缩。
AAC其实也是一种高压缩比的音频压缩算法,它的压缩比远远超过了较老的音频压缩算法,如AC-3、MP3等。AAC和AC-3虽然都是变换编码算法,但AAC使用了分辨率更高的滤波器组,因此它可以达到更高的压缩比。
另外,AAC还使用了临时噪声重整、后向自适应线性预测、联合立体声技术、量化哈夫曼编码等最新技术,这些新技术的使用都使压缩比得到进一步的提高。而且,AAC比AC-3更灵活,它支持更多种采样率和比特率。
AAC支持的采用频率可从8kHz到96 kHz,AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、15个LFE(Low Frequency Effects:低频音效加强通道)、15个Overdub Channel(配音声道)或者叫做多Multilingual Channel(语言声道)和15个数据流。
在MPEG-2的正式听音测试中,数据流速率为320kb/s(每秒320K比特)的AAC可以提供比数据流速率为640 kb/s的MPEG-2 BC更好的音质。因此,AAC是一种比MPEG-2 BC编码算法更好的音频压缩算法,而且可以适用于各种环境下,如可以做电视信号的伴音等。但它的后向兼容性却不好,因为它性能优异,它的后向兼容性问题就显得不那么重要了。MPEG-1的双声道解码器可以解码MPEG-2 BC的5声道数据流,AAC不具有这样的后向兼容性。
6、ACC的声音感知编码
AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样,AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。
当AAC在压缩比为1∶11,即每个声道的数据率为(44.1×16)/11=64kb/s,而5个声道的总数据率为320kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。
与MPEG-1标准中的Layer 2相比,AAC的压缩率可提高1倍,而且质量更高,与Layer 3(MP3)相比,在质量相同的条件下数据率是它的70%。
AAC编/解码器的结构及标准配置
开发AAC标准采用的方法与开发MP3标准采用的方法不同。后者采用的方法是对整个系统进行标准化,而前者采用的则是模块化的方法,把整个AAC系统分解成一系列模块,用标准化的AACT(Advanced Audio Coding Tools:先进音频编码工具)对模块进行定义,因此在文献中往往把“Modular(模块)”与“Tool(工具)”等同对待。
AAC定义的编码和解码的基本结构如图1、图2所示。该解码器软件还是一种通用的多音轨解码器,它可以解码多达48个音轨、15个辅助低频增强音轨和15个数据流。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。此外,AAC的效率也很高,它可以在100MHz主频的奔腾机上实时解码一个立体声比特流。而样本编码器软件则不是一个通用多音轨编码器,它也没有充分利用所有的AAC编码技术。现在已经有了使用AAC算法编码和解码的样本软件,样本解码器软件的功能比较齐全,它可以解码全部三种AAC格式,即AAC标准定义的三种配置,MP(Main Profile:基本配置)、LCP(Low Complexity Profile:低复杂性配置)和SSRP(Scalable Sampling Rate Profile:可变采样率配置):
1、基本配置
在这种配置中,除了“Gain Control(增益控制)”模块之外,AAC系统使用了图3中所示的所有模块,是三种配置中提供最好的声音质量的一种,而且AAC的解码器可以对低复杂性配置编码的声音数据进行解码,但对计算机的存储器和处理能力的要求方面,基本配置比低复杂性配置的要求高。
2、低复杂性配置
在这种配置中,不使用预测模块和预处理模块,TNS(Temporal Noise Shaping:瞬时噪声定形)滤波器的级数也有限,这就使声音质量比基本配置的声音质量低,但对计算机的存储器和处理能力的要求可明显减少。
3、可变采样率配置
在这种配置中,使用增益控制对信号作预处理,不使用预测模块,TNS滤波器的级数和带宽也都有限制,因此它比基本配置和低复杂性配置更简单,可用来提供可变采样频率信号。
作为国际性的研究实验室,Fraunhofer IIS-A是高质量、低比特率音频编码领域的领导者之一。Fraunhofer IIS-A是MPEG-1Layer3以及ACC的主要发展者。同时,Fraunhofer IIS-A也在MPEG-4的标准化构架工作中扮演了重要的角色,如果人们想了解Fraunhofer IIS这个设立在德国的研究室,以及AAC编/解码器的情况,可访问http://www.iis.fhg.de/amm/。
结束语
从目前市场上亮相的由AAC技术标准支持的MP4播放器来看,MP4播放器最大优势在于体积小巧,携带方便,能够随时、随身播放视频图片、录音、FM等功能。但是它的售价很高,最便宜的一款也要3000多元,最贵的价格接近9000元,几乎都相当于市场上一台中低端笔记本电脑的价格了,这给其将来的普及带来困难。
另外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准,是一种自由音乐格式,任何人都可以自由使用。相比之下,MP3的灵活和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。
从音频格式发展的长远来看,MP4的流行是迟早的事。但重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。因为要更换一种流行的事物是需要很长的时间作为代价。
如果MP4不改进其技术构成(如:强加的版权信息),那么当自由的MP3也使用了AAC的技术后,其流行就成了纸上谈兵。
MPEG-1 Audio
在音频压缩标准化方面取得巨大成功的是MPEG-1 Audio(音频),即ISO/IEC 11172-3。
MPEG是Motion Pictures Expert Group(运动图象专家组)的缩写,1987年成立,是专门从事视/音频压缩平台的标准开发和制造的全球性组织,成员单位遍及全球,约有60多家。其开发和制定的系列标准有MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7、MPEG-21等,但目前经ITU(国际电信联盟)认可通过的只有MPEG-1、MPEG-2和MPEG-4三个技术标准。在MPEG-1技术标准中,主要有MPEG-1 Video(视频)和MPEG-1Audio两个编码方案;而在MPEG-1Audio编码方案中又有三种音频压缩模式或称为三个不同的Layer(层)技术标准,英文全称是:MPEG-1 Audio Layer 1、MPEG-1 Audio Layer 2和MPEG-1 Audio Layer 3,简称分别为MP1、MP2和MP3。
1、MP1———技术标准
MP1技术标准人们可能不熟悉,但提到VCD唱片和VCD唱机,人们一定非常熟悉和了解,可以说VCD是人们较早接触到的利用数字压缩技术进行播放的音视频产品或播放器,而VCD中使用的音频压缩技术标准和方案就是MP1。
早在1992年,MPEG组织就推出了MPEG-l标准,即MPEG-1 Video和MPEG-1 Audio Layer 1,当时人们无不为其高效的压缩技术(1∶10至1∶12)和较出色的图像质量惊叹不已,于是MP1成为欧洲VCD的基础,红极全球,给投资商(为标准制定提供研发费用的商家)带来了极大的回报。
如今看来MPEG-1标准的352×288图象分辨率和视频质量相对较低,属于数字LDTV(Low Definition Television:低清晰度电视)层面,只适用于家庭环境,不符合广播电视未来数字化(数字电视的目标是HDTV,即High Definition Television:高清晰度电视)发展的技术要求。
没有MP1就没有MP2,MP1是MP2编码方案的简化形式,所以MP1最适合于消费者应用,如:用于家庭数字记录等场合,可提供192kb/s的双声道立体声。
2、MP2———技术标准
MP2技术标准是MP1技术标准的复杂(进步)形式。MP2技术标准采用的是MUSICAM(自适应掩蔽模型的通用子带综合编码和复用)技术,所以又称为MUSICAM。
由于MP2技术适当的复杂程度和优秀的声音质量,其数字音频系统达到了CD质量,目前在广播电台、电视台的数字演播室、DAB(数字音频广播)、DVB(数字视频广播)等数字节目的制作、交换、存储、传送中得到了广泛应用。
MP2技术已被欧洲MPEG采纳作为宽带、高质量的数字音频压缩标准。它和AC-3(杜比声频编码标准3)一样,都是被IEC(国际电工委员会)批准为全球数字电视标准中的数字音频压缩标准。所不同的是:AC-3绑定于ATSC(先进电视系统委员会[美国])数字电视标准;MP2绑定于DVB(数字视频广播制[欧洲])数字电视标准。
MP2技术标准的数字音频压缩系统,是基于两种机理来减少音频信号的码率。一种机理是利用统计相关性来去除音频信号的冗余度;另一种是不相干压缩,是考虑人耳的心理声学现象,如:频谱掩蔽和时间掩蔽。
我国卫星数字电视系统选定的DVB-S标准、有线数字电视系统认可的DVB-C标准、以及目前用于试验的地面数字(移动)电视系统DVB-T标准中的数字音频压缩标准,都是以MP2标准为蓝本,所不同的是DVB-T数字音频压缩采用的是MP2标准子标准的 5.1声道方案,其标准可以向下兼容MP1标准。
采用MP2编码压缩技术,正是因为它可以更方便、准确地根据人耳心理声学分析的结果来进行分配,以便人耳察觉不出量化的噪声。保证了数字音频编码压缩后的信号,仍然保持CD或接近CD的音质,得到了人们的认可和广泛应用。
3、MP3———技术标准
MP3技术标准人们应该是更加熟悉,MP3技术标准的特点是在低码率条件下,有高水准的声音质量,以及无限的开放性,这些特点使其成为软解压及网络音频广播的宠儿。
在ISO/IEC 13818-2(MPEG-2标准)中规定了:“MPEG-1 Audio还可以定义在MPEG-2 Audio中”。也就是说,MP1、 MP2、MP3的编码技术及方案不仅适用于MPEG-1中,而且也适用于MPEG-2中。实际上MPEG-2中音频标准与MPEG-1中一样,只是MPEG-2音频在具体的应用中以MP2为主,即MUSICAM音频压缩技术。
4、MP4———不是技术标准,是商品。
MP4这个名称是由GMO(Global Music Outlet:全球音乐网站)提出并确定的,MP4不是技术标准,也不是MPEG-4技术标准的简称,更不是MPEG-1 Audio的Layer 4(第四层)技术标准。MP4是商品。
第一,之所以说MP4是一个商品,是因为MP 4出现的主要目的就是“意图采用一种带有版权限制的音乐格式,去取代目前在网络上日益泛滥的MP3”。
也就是说,MP4真正的含义则是因为版权问题,这一点和MP3不同。对唱片公司来说,MP3的问题就是流行的范围太广,传播的速度太快,技术的掌握太容易,使得民众忽视了著作者和出版者应享有的版权待遇。其表现为MP3的大肆传播以及贩卖,这实际上已经侵犯了音乐出版物的版权。于是,GMO针对MP3提出了“基于AT&T公司授权的AAC改良技术”,即在AAC技术标准的基础上,增加“音乐传播认证”功能,并改名为A2B技术(A2B与AAC虽有一些小小的不同,但实际上还是AAC技术,目前国外的一些技术文献将A2B和AAC视为同一种技术),同时在播放器中实施,为了迎合市场及民众驱向(容易接受和购买欲)的潮流,将这种播放器命名为MP4。
这样,一个旨在和无法无天无版权的MP3一较高低,依靠AAC技术标准的电子商品 ——— MP4诞生了。
由此可见,MP4这个名称的提出和其本身的技术含义没有任何联系,只是为了迎合市场,方便民众的记忆。若从技术标准及其演变情况来命名的话,应该叫做AAC或A2B,都比叫MP4有些“道理”,如图2所示。
第二,MPEG-4是一种多媒体应用技术标准,它提供了交互使用图像以及多媒体的合成技术。MPEG-4技术的主要特点是“在范围极广的比特率下,对自然以及合成音频的编码和组合,是用一种新规范包容了所有多媒体应用和开放型的技术”。如今,MPEG-4已发展成一个具体的模块(黑匣子)——— 大规模的IC(集成电路)。
第三,在MPEG-1标准中,没有的Layer 4(第四层)这个概念。MPEG-1 Audio Layer 3技术标准的发展,没有进入Layer4,而是进入MPEG-2 BC(Backward Compatible:后向兼容编码)技术标准,之后又进入MPEG-2 NBC(Non-Backward Compatible:后向不兼容编码)和MPEG-2 AAC技术标准的制定,如图2所示。
5、A2B ———融合“音乐传播认证”功能
GMO为了针对MP3,提出了“在基于AT&T公司授权的AAC技术基础上,增加音乐传播认证功能”,从而得到新的技术———A2B。A2B主要由三个部分组成。
第一部分:音频压缩技术专利
A2B是AT&T的音频压缩技术专利,A2B可以将AAC压缩比提高到1∶20而不损失音质。这样,压缩一首3分钟的歌曲仅仅需要2.25MB的数据量,这在互联网上传播和下载的速度都是非常“爽”的。
第二部分:安全数据库
A2B技术可以为民众的A2B Music(乐曲)创建一个特定的密钥,同时将此密钥存于其数据库中,并约定:“只有A2B的播放器才能播放含有这种密钥的Music”。这实际上是在商家和民众之间建立了一个条件管理和接收的系统。
第三部分:协议认证
协议认证包含了复制许可、允许复制副本数目、Music总时间、Music可以播放时间以及售卖许可等信息。
协议认证的工作原理如下:首先认证该Music内部的密钥,然后核实安全数据库中的密钥并找到其许可协议。这样就决定了Music以何种形式播放以及是否可以拷贝、贩卖。同时,数据库中的许可协议可以根据用户要求随时修改,使得A2B Music本身包含的版权信息也可以随时更换。这是一种融合了“音乐传播认证”功能的技术,解决了MP3带来的版权问题。
MPEG-2 AAC
MPEG-2标准是MPEG组织于1994年11月针对数字电视/影像提出的,其特点是音质更加完美而压缩比更加大(1∶15)。
MPEG组织在早期的ISO/IEC 11172-3(MPEG-1标准)中,规定了MPEG-1标准支持采样率为32kHz、44.1kHz和48kHz的Mono(单声道)及Stereo(立体声)或Dual mono(双声道)编码,其Layer 3标准预设为32~320 kbit/s。
在ISO/IEC 13818-3(MPEG-2 BC标准)中,规定了MPEG-2 BC标准是对MPEG-1标准的向后兼容多声道扩展方案,增加了一个“低频扩展”声道,从而提升至5个声道编码,比特率的变化范围增至1 Mbits/s。
随后,在ISO/IEC 13818-7(MPEG-2 AAC标准)中,规定了MPEG-2 AAC标准在采样率为8 kHz~96 kHz下提供1~48个声道可选范围的高质量音频编码。AAC适用于“从比特率在8kbit/s单声道的电话音质到160kbit/s多声道的超高质量音频范围内的编码,并且允许对多媒体进行编/解码”。
从MPEG-1、2标准的发展中,可以看出AAC技术的傲人之处,就是它“增加了诸如对立体声的完美再现、比特流效果音频扫描、多媒体控制、降噪优异等MP3没有的特性,使得它在音频压缩后仍能完美的再现CD音质”。
1、AAC的指导思想
ISO/IEC 13818-7(MPEG-2 AAC标准)于1997年成为国际标准,AAC有时也被称为NBC,是MPEG体系的声音压缩技术。AAC技术做的音频编码同样具有CD音质,而且占用的存储空间更小,它是MPEG-2国际标准的一部分。在MPEG-2标准制订的早期,本来是要求“将MPEG-2音频编码部分与MPEG-1保持兼容”。但后来为了适应HDTV的要求而将其定义成为一个“可以获得更高质量的多声道音频标准”。因此,这个标准理所当然必须是Advanced(先进)的,也就不必刻意要追求与MPEG-1的兼容,故而被称为MPEG-2 AAC(Advanced Audio Coding:先进音频编码)。也就是说,AAC与MP3是不兼容的,制作和播放AAC乐曲,都需要使用与MP3完全不同的技术工具。
2、AAC的工作方式
AAC之所以不兼容MP3,关键是它使用了不同的压缩处理算法,并且增加了许多新的特性。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据,其工作方式如下(如图3、图4所示):
首先,输入信号经增益控制模块,音频数据通过PQF(Polyphase Quadrature Filter:多相正交滤波器)后,被分离为4个相等的标准子带。对于每一个子带都传输一个独立的增益,作为side information(边信息)。在增益控制下的子带数据,然后以长度为256的MDCT(Mend Discrete Cosine Transform:改进离散余弦变换)来(对于瞬时条件长度为32)转换。在MDCT中使用的窗口是KBD(Kaiser-Bessel Derived:贝塞耳函数导出)窗或正弦窗,两者的频谱特性不相同可适应不同的信号。在瞬时条件下使用较短的窗口以改善时间分辨率。
MDCT 系数通过两个预报帧获得预报, 对于每一个频段使用一种独立的LMS-Adapted(Least Mean Square-Adapted:合适的最小均方)预报器。这改善了恒定信号的编码效率。预报后的残余被非均衡地量化并使用11种Huffman(编码方法)编码
中的一种来编码。
AAC还包括许多可选的附加特性。最令人感兴趣的是TNS(Temporal Noise Shaping:瞬时噪音抑制),该技术主要对瞬间信号起作用。
3、MP4的加密技术
MP4商品里面使用了加密技术,首先要认识到的是这一切都离不开网络的帮助。在网络上出售音乐的公司需要为自己的客户创建一个所谓的安全数据库,每一个用户都需要在这个数据库里面创建一个唯一的密钥。当用户以播放、复制、出售等方式去处理手头的音乐时,一切的活动都必须通过这一个密钥,结合音频格式内含的限制信息,去查询安全数据库中的许可协议,看看用户究竟有没有做这种活动的权力。数据库中的许可协议可以应用户要求随时修改,使得MP4歌曲本身包含的版权信息也可以随时更换。
4、MPEG-2和MPEG 2.5
MPEG-1和MPEG-2在音频方面都使用相同的音频编解码家族,即MP1、MP2、MP3共三层。数字越小,相对应的技术就越简单,越容易实现。MPEG-2的新音频特性主要表现在MPEG-2具有低采样率扩展以满足只具备非常有限的带宽的应用范围。新的采样频率为16kHz、22.05kHz或24kHz,比特率则扩展到 8kbps。
MPEG-2标准允许比特率低到8kbps,在该种情况下,实际有效的音频带宽需要做出限制,比如限制到3kHz。因此,实际的采样率会被减少到8kHz。采样率越低,频率分辨率就越好,时间分辨率就越差,流格式中控制信息和音频数据的消耗比就越好。由于MPEG-2定义的最低的采样率为16kHz,于是Fraunhofer便对此进行扩展,将原来MPEG-2所支持的低采样率再除以2,得到8kHz,11.025kHz和12 kHz,称为“MPEG-2.5”。
5、ACC的任意信道方式
AAC是包括5.1信道方式(MP3采用的是双声道立体声)的任意信道方式,也用于MPEG-4音频。它以CD音质为标准,可按CD约1∶20大小压缩。
AAC其实也是一种高压缩比的音频压缩算法,它的压缩比远远超过了较老的音频压缩算法,如AC-3、MP3等。AAC和AC-3虽然都是变换编码算法,但AAC使用了分辨率更高的滤波器组,因此它可以达到更高的压缩比。
另外,AAC还使用了临时噪声重整、后向自适应线性预测、联合立体声技术、量化哈夫曼编码等最新技术,这些新技术的使用都使压缩比得到进一步的提高。而且,AAC比AC-3更灵活,它支持更多种采样率和比特率。
AAC支持的采用频率可从8kHz到96 kHz,AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48个主声道、15个LFE(Low Frequency Effects:低频音效加强通道)、15个Overdub Channel(配音声道)或者叫做多Multilingual Channel(语言声道)和15个数据流。
在MPEG-2的正式听音测试中,数据流速率为320kb/s(每秒320K比特)的AAC可以提供比数据流速率为640 kb/s的MPEG-2 BC更好的音质。因此,AAC是一种比MPEG-2 BC编码算法更好的音频压缩算法,而且可以适用于各种环境下,如可以做电视信号的伴音等。但它的后向兼容性却不好,因为它性能优异,它的后向兼容性问题就显得不那么重要了。MPEG-1的双声道解码器可以解码MPEG-2 BC的5声道数据流,AAC不具有这样的后向兼容性。
6、ACC的声音感知编码
AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样,AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。
当AAC在压缩比为1∶11,即每个声道的数据率为(44.1×16)/11=64kb/s,而5个声道的总数据率为320kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。
与MPEG-1标准中的Layer 2相比,AAC的压缩率可提高1倍,而且质量更高,与Layer 3(MP3)相比,在质量相同的条件下数据率是它的70%。
AAC编/解码器的结构及标准配置
开发AAC标准采用的方法与开发MP3标准采用的方法不同。后者采用的方法是对整个系统进行标准化,而前者采用的则是模块化的方法,把整个AAC系统分解成一系列模块,用标准化的AACT(Advanced Audio Coding Tools:先进音频编码工具)对模块进行定义,因此在文献中往往把“Modular(模块)”与“Tool(工具)”等同对待。
AAC定义的编码和解码的基本结构如图1、图2所示。该解码器软件还是一种通用的多音轨解码器,它可以解码多达48个音轨、15个辅助低频增强音轨和15个数据流。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。此外,AAC的效率也很高,它可以在100MHz主频的奔腾机上实时解码一个立体声比特流。而样本编码器软件则不是一个通用多音轨编码器,它也没有充分利用所有的AAC编码技术。现在已经有了使用AAC算法编码和解码的样本软件,样本解码器软件的功能比较齐全,它可以解码全部三种AAC格式,即AAC标准定义的三种配置,MP(Main Profile:基本配置)、LCP(Low Complexity Profile:低复杂性配置)和SSRP(Scalable Sampling Rate Profile:可变采样率配置):
1、基本配置
在这种配置中,除了“Gain Control(增益控制)”模块之外,AAC系统使用了图3中所示的所有模块,是三种配置中提供最好的声音质量的一种,而且AAC的解码器可以对低复杂性配置编码的声音数据进行解码,但对计算机的存储器和处理能力的要求方面,基本配置比低复杂性配置的要求高。
2、低复杂性配置
在这种配置中,不使用预测模块和预处理模块,TNS(Temporal Noise Shaping:瞬时噪声定形)滤波器的级数也有限,这就使声音质量比基本配置的声音质量低,但对计算机的存储器和处理能力的要求可明显减少。
3、可变采样率配置
在这种配置中,使用增益控制对信号作预处理,不使用预测模块,TNS滤波器的级数和带宽也都有限制,因此它比基本配置和低复杂性配置更简单,可用来提供可变采样频率信号。
作为国际性的研究实验室,Fraunhofer IIS-A是高质量、低比特率音频编码领域的领导者之一。Fraunhofer IIS-A是MPEG-1Layer3以及ACC的主要发展者。同时,Fraunhofer IIS-A也在MPEG-4的标准化构架工作中扮演了重要的角色,如果人们想了解Fraunhofer IIS这个设立在德国的研究室,以及AAC编/解码器的情况,可访问http://www.iis.fhg.de/amm/。
结束语
从目前市场上亮相的由AAC技术标准支持的MP4播放器来看,MP4播放器最大优势在于体积小巧,携带方便,能够随时、随身播放视频图片、录音、FM等功能。但是它的售价很高,最便宜的一款也要3000多元,最贵的价格接近9000元,几乎都相当于市场上一台中低端笔记本电脑的价格了,这给其将来的普及带来困难。
另外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准,是一种自由音乐格式,任何人都可以自由使用。相比之下,MP3的灵活和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。
从音频格式发展的长远来看,MP4的流行是迟早的事。但重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。因为要更换一种流行的事物是需要很长的时间作为代价。
如果MP4不改进其技术构成(如:强加的版权信息),那么当自由的MP3也使用了AAC的技术后,其流行就成了纸上谈兵。