基于龙芯2K1000B的H.264视频解码系统软件适配与优化

来源 :东南大学 | 被引量 : 0次 | 上传用户:cyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
龙芯2K1000B是面向工业控制、移动智能终端的嵌入式So C,视频解码是其重要的应用场景。其视频子系统中包括以CPU作为处理核心的软件解码器和硬件视频处理单元(Video Processing Unit,VPU)。CPU解码器一般基于高级编程语言实现,虽然解码效率低于硬件解码器,但具有格式兼容性好和算法升级灵活的优势,可以作为视频解码系统在低分辨率解码时的重要补充。VPU解码器虽然解码效率高,但需要使用大量的物理地址连续内存,从提高系统资源利用率角度出发,需要对其内存管理方法进行适配和优化。论文以目前被广泛使用的H.264视频格式作为研究对象,基于龙芯2K1000B平台对其视频解码系统进行软件层次的适配和优化。论文对龙芯2K1000B解码系统在H264视频解码中存在的问题进行分析和优化。对于CPU解码器,首先评估了当前基于FFmpeg的H.264解码器性能。利用Perf等性能分析工具,找到熵解码、运动补偿、环路滤波、反量化等主要的性能瓶颈模块。然后针对瓶颈模块的计算特点,利用龙芯多媒体SIMD指令对运动插值和环路滤波两个耗时模块进行了内嵌汇编的优化。在此基础上充分利用移位指令、解包指令以及龙芯平台丰富的寄存器资源,分别对数据加载和中间数据存取进行了优化,提高了解码器性能。对于VPU解码器,首先对解码器原始内存管理方案的预留方式和分配方法进行了分析。然后适配了连续内存分配器(Contiguous Memory Allocation,CMA)机制对VPU的内存预留进行优化,使得VPU不需要长期独占连续物理内存。在此基础上,改进了原始内存分配方法中基于固定内存块进行申请和分配的方式,实现了根据解码器实际需求进行动态内存申请和分配的方法,提高VPU内存的真实利用率。最后在搭载了2K1000B和Linux操作系统的龙芯2K派开发上对优化结果进行了测试。对于CPU解码器,实验测试结果表明,经过龙芯多媒体SIMD指令优化后整体的解码帧率提升幅度在30%以上。其中720P分辨率的高清视频解码帧率可以达到24帧。对于VPU解码器,优化后的基于CMA的内存预留方式可将内存消耗控制在64MB以内并且不长期占用。优化后的动态内存分配方式分配耗时在250毫秒以内,同时VPU的内存真实利用率均高于95%。
其他文献
学位
学位
学位
学位
学位
新型二维材料黑磷因其优异的力学特性、电子特性和光电特性,自2014年被成功制备以来就受到国内外研究者的广泛关注。二维黑磷是一种直接带隙半导体,带隙随层数可变,且载流子迁移率较高。它在新型光电器件、自旋电子器件、生物医学等诸多领域具有广阔的应用前景。此外,与黑磷结构相似的二维材料类黑磷烯MX(M=Sn,Ge;X=S,Se)也具备良好的发展前景。缺陷在二维材料的诸多方面都扮演着至关重要的角色,实际上,
学位
目标跟踪任务作为计算机视觉领域的基础课题,具有巨大的研究价值和应用前景。近些年深度学习技术日渐成熟,助力计算机视觉各个领域实现了突破。孪生网络就是一种充分发挥深度网络端到端输出优势的目标跟踪算法框架,在性能上有着平衡的表现,和可供发掘的研究潜力。但由于取消了在线更新的机制,其在跟踪时的表现往往受限于提取特征的判别能力,对特征提取的过程做出改进可以进一步提高算法的预测精度。此外深度卷积神经网带来的庞
智能终端、视频流等移动设备的普及和物联网技术、5G移动通信的进一步应用将导致数据流量高速增长,现有核心骨干网100Gbps的带宽容量接近耗尽边缘。2017年12月,IEEE802.3工作组正式批准IEEE802.3bs以太网标准协议,为400Gbps以太网的媒体访问控制层、物理层和管理参数提供标准规范。400Gbps以太网接口的研究和应用势在必行。本文针对IEEE802.3bs协议中的400Gbp
学位