论文部分内容阅读
H.264是由ITU-T VCEG和ISO/IEC MPEG组成的联合视频工作组JVT(Joint Video Team)于2003年3月正式提出的最新一代视频压缩标准。该标准支持从低带宽、高误码率的无线移动视频通信到高码率、低延迟的视频广播及在线流媒体等多种应用,日益受到业界的关注。为了实现更高的编码,H.264标准采用了很多新的编码技术,特别是运动估计中采用了1/4像素精度、变块尺寸、多参考帧等新技术,因此在保证相同解码图像质量下,H.264比MPEG-2和H.263的编码性能至少提高了一倍以上。与此同时,H.264编码器的计算复杂度也大大增加,需要消耗大量的时间和系统资源。运动估计占编码器总的编码时间的60%~80%;其中整数运动估计又占了整个运动估计的大部分计算负载。为了达到实时性,完成巨大的计算任务,运动估计需要用硬件加速——进行高并行度VLSI设计。本文在分析研究了各种整数运动估计算法和结构的基础上,结合高性能VLSI设计实现的特点,提出了一种改进的16×16脉动阵列及流水线相结合的全搜索可变块尺寸匹配的整数运动估计结构,完成了其VLSI设计。该设计充分考虑数据重用,参考帧数据分布式存储到片上RAM中,当前帧数据块在PE(Processing Element)阵列中横向和纵向循环移动达到重用,同时搜索区数据在片上RAM之间不需要传递,因而搜索帧和当前帧数据都只需要输入一次,大大减少了数据存储带宽,详细的数据调度使得数据流很规则流畅,硬件计算效率达到100%;运动估计搜索范围为16×16,每个时钟周期完成一个搜索点的匹配计算,同时中间SAD(Sum of Absolute Difference)计算结果重用,通过小数据块的组合实现大数据块的计算,完成变块运动估计。用Matlab和Verilog完成了该设计的算法和RTL(Register Transform Level)设计和验证;采用HJTC 0.18μm 1P6M CMOS工艺,用Synopsys逻辑综合和验证工具完成了门级设计与验证,时钟工作频率125MHz,等效逻辑门208K,SRAM为30K Bytes,用Cadence SoC Encounter进行了物理设计,芯片面积为4mm×4mm。实验表明本设计能实时完成SHDTV(1920×1080,60f/s)视频序列的整数运动估计,满足H.264应用需求。