音频压缩质量对听觉感知影响的研究

来源 :教师博览·科研版 | 被引量 : 0次 | 上传用户:zybzsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 为了能更好地解决数字音频信号相关存储与传输问题,数据压缩逐渐成为当代数字音频处理中一个重要的研究方向。人耳的听觉对不同压缩比的音频质量有着显著的感知差异,通过不同的实验法组合发现,被试不能分辨出112及以上比特率编码的音频,但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s编码的音频,且对80及以下比特率编码的音频表现出厌烦。由此可见,对音频进行编码的最佳方案是112 kBit/s。
  [关键词] 音频;MP3;听觉感知
  音频作为视听媒体中不可或缺的一部分,具有重要地位。当音频信号传递到人耳时,人耳有一套复杂的听觉感知系统,能够将声音信号转变为大脑的脑电信号,并将接受的复杂信息简化为人们本身所需要的信息。人们对人耳听觉系统信息处理机制的研究涉及多个学科的领域,涵盖了生理学、认知心理学、信息科学、计算机科学、物理声学等。
  到目前为止,人们对听觉信息处理机制的研究已经取得了一定的成果,但仍存在一些未解决的问题,例如,在数字音频信号传输时,人们常对于音频的大小和质量产生困惑。众所周知,声音信号的数据量是非常大的,要使实时处理和传输这些庞大的数据成为可能,必须对音频数据信息进行处理。近几年来,在网络流媒体、数字广播、移动设备等领域,数字音频信号处理得到了广泛的应用。为了能更好地解决数字音频信号相关存储与传输问题,数据压缩逐渐成为当代数字音频处理中一个重要的研究方向。
  在诸多的压缩标准中,MP3压缩格式以其优越的性能以及品质与算法复杂度的极佳折中,成为当前 PC、网络、PDA 上最为流行的音频格式。移动设备终端的计算能力和存储容量都是有限的,但是过多地压缩音频质量将会影响到人们对事物整体信息的感知与判断。[1]因此,如何在不影响听觉感知的基础上尽可能大地压缩音频成为研究的一个重要领域。
  人耳作为音频信号的接收者,它具有一定的主观性,尽管物理声学信号是客观存在的,但在人的听觉系统反应上会有一定的偏差。因此深入地研究人的听觉系统,研究音高、音强和音色对主观感知的影响是十分必要的。这就是交叉学科——心理声学的研究范畴。
  本次实验主要为探寻MP3的不同压缩方式是否對听觉质量产生影响,特选取MP3中常见的一些压缩的比特率,探究编码和未编码的音频片段是否在听觉感知上有差异,探究不同压缩程度的音频是否对人的主观感知有影响,以期选择出最优的MP3压缩方案。
  一、基础理论
  1.听觉曲线
  声音的单位能量由响度来表示,响度由单位面积上的声压比对数来计算。
  由于人耳的结构复杂,不同频率的声音传递到耳朵会有不同的共振。图1为人耳在相同响度下对不同频率的声音的共振程度。最下方的虚线表示在安静时人的听觉阈值曲线,上方四条实线分别表示在20、40、60、80分贝下的听觉曲线。从图1可以看出,频率为2kHz~6kHz的声音共振较为明显,可以继而推出人耳对这个频率段的声音较其他频率段为敏感。[2]
  2.双耳效应
  当人们将一根手指按在一只耳朵上,会感觉到明显的响度变小了。这说明两只耳朵都和响度相关。1947年,Shaw、Newman和Hirsh发现,事实上双耳的听觉阈限要比单耳的听觉阈限低了大约3dB。[3]这个结果的产生不是在实际的室内声源中,而通常是在开放声场的消声室中。同时,有国外的研究还发现,声音射入的方向是影响响度的一个重要因素。图2显示了在标准水平面的不同入射角产生的不同结果。显然,响度本身是受入射方向影响的,对不同的受试者来说,最大变化可达10dB;除此之外还显示了明显的频率相关性,在高频(5kHz)时有更大的效应。
  响度受到入射方向影响可以理解为两个不同的进程:(1)从声源到耳朵的声学信号转换;(2)事实上的双耳的相加。第一个进程是物理层面的,它包括面对着声源耳朵的压力结构、背对着声源耳朵的头部阴影效应(声影区)等。第二个进程是心理物理层面的,它描述了耳朵受入射影响变化的响度等级如何与双耳的压力响度等级相结合。2006年,Sivonen和Ellermeier利用相加的法则发现,双耳最大的增益达到3dB。[4]
  3.音频压缩编码技术
  最近二十年来,有不少音频压缩编码技术被制定出来,如MPEG-1 Layer3、MPEG-2 AAC、Dolby实验室的AC-3、微软的WMA等,其中,MPEG音频标准系列占据了音频压缩技术的主流地位。MP3是MPEG-1的副产品,20世纪90年代由德国柏林工业大学的Fraunhofer Gesellschaft研究所研制,是到目前为止最为普及的音频压缩格式。它采用了子带分解、分析滤波器组、转换域编码、熵编码、动态比特分配、非同一量化编码和心理声学分析等技术,支持32kHz、44.1kHz和48kHz采样频率下对16比特PCM信号进行编码,同时,提供单声道、立体声道、两个独立双声道和联合立体声等四种音频声道模式。[5]
  图3所示为MP3编码流程。如图所示,音频信号由两种方式进行编码,第一种方式数据先进入多相滤波器,然后经过MDCT变换得出频谱系数;第二种方式数据先进行快速傅立叶变换,然后通过psychoacoustics分析,将psychoacoustics分析后的声学参数和第一种方式输出的频谱系数进行量化和霍夫曼编码;第二种方式进行声学分析后可以得出信号掩蔽比,最终由两者形成相应的比特信息流。
  二、编码和未编码的音频对人的听觉感知的影响
  1.被试
  柏林工业大学声学专业大学生30人,其中男生15名,女生15名,年龄在24~31岁,听力正常。被试单独进入测试房间,在计算机支持下的ABX测试中进行独立的选择和评价。
  2.实验材料
  实验采用60个音频文件,分为30组,每组2个音频文件,均采用WAV格式(PCM, 16 Bit, 44.1 kHz)。每组的两个音频各自包含相同的爵士乐片段(大约30秒),其中第一个音频未编码,第二个文件用112 kBit/s的MPEG Layer-3 方法进行编码。   3.实验方法
  传统的信号检测法无法改变原始音频,因而在本研究中无法采用。为了达到目的,本研究借助计算机的编程实现,采用迫选法(Forced Choice Method)。而迫选法要求被试必须至少听两段音频片段,因此在本研究中采用ABX测试法。
  ABX测试方法如下:从两段音乐库中随机抽取一对音频信号A[n]、B[n](n为不大于原始音乐库中音乐数目的任意正整数),再随机地把A[n]、B[n]分配给A 和B,然后在A、B 中随机选出一个作为X。测试者可以任意地反复回放A、B或X,最后给出判断:X是A还是B。
  4.实验程序
  本实验在小型的混响房间的笔记本电脑上运行,电脑装载了ABX软件。被试逐个单独进入房间然后对音频用ABX方法进行判断。实验采用STAX Lambda SR-202-Stereo 专业测试耳机。在实验过程中允许被试自由调节音频的响度。每个被试测试18次。
  当n=18以及p=0.5时得到以下数值:5%的波动范围应该被看作是一个明显差异的界限。在表1中,有超过13次的尝试都在5%以内,只有5次的偶然命中率超过了这个数值(见图4)。
  6.实验结果与分析
  对实验结果进行描述性统计分析发现:有6名被试达到13次及以上的正确次数,而其余24名被试均未达到标准(见表2)。因此可见,即仅有20%的被试能正确分辨两者的区别,而其余80%的被试未能正确分辨两者的区别。
  对实验结果进行单样本T检验发现:T=-5.572,P<0.001,即30名被试的平均正确次数11.20与正确次数13之间存在显著性差异。由此可见,被试并不能分辨出112 kBit/s编码的音频。
  三、不同压缩质量的音频对人的听觉感知的影响
  1.被试
  柏林工业大学声学专业大学生40人,其中男生20名,女生20名,年龄在25~32岁,听力正常。被试单独进入测试房间,在计算机支持下的ABC/HR测试中进行独立的选择和评价。
  2.实验材料
  实验采用在第一个实验中使用过的爵士乐片段(s0),将其进行编码,形成8个比特率的MPEG Layer-3编码片段:320kBit/s (s1),224kBit/s(s2),160kBit/s(s3),112kBit/s(s4),96kBit/s(s5),80kBit/s(s6),64kBit/s(s7)和56kBit/s(s8),共18组,每组9个音频文件。
  3.实验方法
  本实验采用ABC/HR方法。ABC/HR测试方法如下:在程序上呈现三个测试刺激源(a,b,c),其中参数刺激已被标明,同时提供两个未标识的刺激材料,这两个未标识的刺激材料中一个是重复的参数,一个是已经改变的版本。在测试中,被试需要確定,这两个未标识的刺激材料中的哪一个是已经改变的版本。除此之外,被试还需要测主观的干扰度,这主要通过一个控制器来定量确定(5-感觉不到;4-感觉到,但不令人厌烦;3-稍微有点令人厌烦;2-令人厌烦;1-很令人厌烦讨厌)。如果被试选择已经改变的版本,其主观评判的值为正值;如果被试选择未被改变的版本,其主观评判值为负值。
  4.实验程序
  本实验在小型的混响房间的笔记本电脑上运行,电脑装载了ABC/HR软件。被试逐个单独进入房间然后对音频用ABC/HR方法进行判断。实验采用STAX Lambda SR-202-Stereo 专业测试耳机。每个被试测试162次。
  5.实验结果与分析
  对实验结果进行描述性统计分析发现:100%的被试能够在两个未编码的刺激中识别出56 kBit/s的音乐、64 kBit/s的音乐、80kBit/s的音乐;85%的被试能够在两个未编码的刺激中识别出96kBit/s的音乐;而112kBit/s的音乐、160Bit/s的音乐、224kBit/s的音乐、320kBit/s的音乐识别正确率分别为18%、13%、10%、5%。
  将112kBit/s、160kBit/s、224kBit/s、320kBit/s音乐的实验结果进行单样本T检验发现:T(112kBit/s)=-4.130;
  T(160kBit/s)=-6.430,p<0.005;T(224kBit/s)=-9.579,p<0.005;
  T(320kBit/s)=-11.695,p<0.005;即40名被试的平均正确次数M(112kBit/s)=11.25,M(160kBit/s)=10.88,M(224kBit/s)=9.92,
  M(320kBit/s)=9.42与正确次数13之间均存在显著性差异。由此可见,被试并不能分辨出112 kBit/s、160kBit/s、224kBit/s、320kBit/s编码的音频。
  将96kBit/s的音乐的实验结果进行单样本T检验发现:T(96kBit/s)=1.010,p>0.01;即40名被试的平均正确次数M(96kBit/s)=14.50与正确次数14之间并不存在显著差异。由此可见,被试能分辨出96 kBit/s编码的音频。
  进一步对平均值进行分析发现:在80 kBit/s达到了标度值“稍微有点令人厌烦”,由此可以确定质量的损害;在96kBit/s差异度的平均值为3.56,在标度值“感觉到,但不令人厌烦”附近,由此可以看出,在这个标度值上仅仅有一个变化,但是没有质量的损害生成(见表3)。
  四、分析与讨论
  音频压缩技术,其实质就是对经过采样量化的PCM信号进行处理,力求压缩后的音频数据量最小化,并同时达到所谓的“透明音质”,即解码后的输出信号与原先的输入信号不可分辨。本实验发现,被试不能分辨出112、224、320比特率编码压缩的音频,但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s编码压缩的音频,且对80及以下比特率编码的音频表现出厌烦。由此可见,经过112、224、320比特率编码压缩的音频,都达到了“透明音质”的标准,均为音频压缩编码可以采用的比特率。但是,音频编码的中心思想为用最小的比特存储声音信号,使之达到透明声音信号标准。[6]因此,在音频编码压缩上应该有个最佳压缩方案,即达到透明声音信号标准的最小比特值,本实验发现,这个值为112 kBit/s。
  参考文献
  [1]蒋学鑫.MP3实时编解码系统的研究与开发[D].电子科技大学,2007,(4).
  [2]Weinzierl S,Ellermeier W,Hellbrück J. Handbuch der Audiotechnik[M].Springer Verlag, 2007,(42).
  [3]Shaw W A,Newman E B, Hirsh I J. The difference between monaural and binaural thresholds[J].Journal of Experimental Psychology, 1947,(37):229-242.
  [4]Sivonen VP, Ellermeier W. Directional loudness in an anechoic sound field, head related transfer functions, and binaural summation[J].J Acoust Soc Ame .2006,(119):2965-2980.
  [5]李琳.音频感知编码模型及关键技术的研究[D].中国科学技术大学,2008,(5).
  [6]李琳琳.数字音频感知编码的心理声学模型[J].经验与交流,2008,(6).
  责任编辑 李杰杰
其他文献
[摘 要] 在初中政治教学中运用案例教学法,可以将抽象理论具体化,降低学生对知识的理解难度。同时还能拓展学生的思维,提高他们在课堂的主动性。通过一些通俗易懂的故事或案例,准确表达出积极向上的道德观念和人生观。但在案例素材的选择上需要做到科学合理,且需要严格遵循案例教学法的应用原则,才能更好在初中政治课堂上实施。  [关键词] 案例教学法;初中政治;运用  初中时期是树立三观和接受道德教育的黄金时期
从控制原理,统计设计,锅炉的可控性,暖风器的可控性等方面论述了一种动态控制锅炉低温腐蚀的有效措施及其经济性。
[摘 要] 小学美术“递进式示范”教学符合美术教学的规律和学生的发展需求,是比较有效的教学模式。教师在设计“递进式示范”模式时结合教学重难点进行分步突破,为学生设计良好的示范形式,顺应学生学情,让艺术之花在孩子心中自由绽放。“递进式示范”教学过程脉络清晰、循序渐进,每一次示范之间互相关联、师生互动,促进学生创作思维的不断提升,让学生的创作不受条条框框的限制,拥有灵性,释放出艺术的魅力。  [关键词
为有效杜绝互联网上色情图像传播现象,设计和实现了一种多特征特定类型图像过滤方法,即对图像进行肤色和纹理特征检测,提取多个统计特征,采用决策树分类器进行分类.实验结果表明:该方法能够达到90%以上的准确率.
[摘 要] 在新课程改革背景下,中小学校的管理理念也在发生相应的变化,不少中小学校也加大了学校管理的力度,但仍存在不少问题。对于改革中小学校管理职能,应注重从执行课程转向开发课程、在管理中注重人性化、从行政意识转向服务意识以及从管理教师转向发展教师等方面着手。这样不仅能在一定程度上提高中小学校的管理水平,还能更好地满足当前教育改革的需求,从而推动我国中小学校健康发展。  [关键词] 新课程改革;中
急性外伤性颅内血肿30例临床分析南京钢铁厂职工医院外科张务柱关键词外伤;颅内血肿中图号R651.15我院地处远郊,设备简陋,近6年开颅清除颅内血肿30例,在CT尚未普及的现状下,分析再学习有一定意义
在初中体育教学中,提升初中生主动参与课堂的积极性,能够有效促进初中生身心发育,缓解他们的学习压力,有利于他们的全面发展。传统的初中体育教学存在教学模式单一、课堂氛围
运用实验研究"三自一包"的班级管理模式对学生的自我管理与自我教育能力的影响。研究以班级管理模式为自变量,学生的自我认识、自我管理与自我教育能力为因变量,选取1个实验班
火焰噪声信号的Hurst分析可以作为火焰气化燃烧稳定性的一个判据.通过对气化火焰噪声信号的分析,研究了气化燃烧火焰的稳定性.采用域重新标度分析法研究了撞击火焰噪声波动信号,
职业学校中计算机编程课教学面临一些问题,如学生学习兴趣缺乏,没有持之以恒的毅力等。教师可以通过组建编程社团,提高学生的学习兴趣。在组建社团时需注意成员的选择要形成