面向目标检测识别应用的算法加速器体系结构研究

被引量 : 0次 | 上传用户:lych001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无论在军事还是民用领域,目标检测识别技术都具有重要的研究意义和应用价值。人们提出了很多方法来提高目标检测识别的准确性,且取得了显著的成果,但是在提高目标检测识别处理速度方面的相关研究较少。事实上,在将目标检测识别技术应用于实际系统中时,除了保证足够高的识别准确率,识别速度能否满足系统对实时性的要求也是一个关键问题。另外,目标检测识别系统的体积、实现代价、功耗以及对不同应用环境的适应能力也是需要研究的问题。基于FPGA(FieldProgrammableGateArray)的硬件加速技术能够实现较大程度的算法到计算引擎的空间映射(区别于通用处理器),且具备计算和存储资源的定制能力(区别于ASIC(ApplicationSpecificIntegratedCircuits)),因此在灵活性和高性能方面做到了比较好的权衡。同时,FPGA硬件加速器与通用处理器相比还具有体积小、功耗低的优势。基于FPGA的硬件加速技术对于提高目标检测识别技术的实用性具有重要意义。本文研究面向目标检测识别应用的算法加速器体系结构,主要研究四类应用:静态刚性目标识别、运动目标检测提取、行人检测识别、人脸检测识别,研究目的是实现算法到有限硬件资源的充分高效的映射,在硬件实现代价、处理速度和处理效果之间进行适当的折中。基于研究成果为这四类应用分别设计了基于FPGA的硬件加速原型系统。同时,针对行人、人脸检测识别等一类具有不规则数据访问模式的图像处理应用提出了一种通用无冲突并行访问存储模型。首先研究了基于Hausdorff距离与模板匹配的静态刚性目标识别硬件加速技术。静态刚性目标识别应用的数据访问模式较规整,但是计算复杂性较大。本文提出了面向大尺寸窗口遍历型应用的并行计算模型,目的是实现运算单元的数据消耗速度与存储系统的数据供应速度之间的均衡。将基于多体存储结构的无冲突并行访问存储模型与基于分治并行策略的多PE(Processing Element)计算结构相结合,缓解了只采用前者时所遇到的存储体个数太多的问题以及只采用后者时所面临的存储容量受限的问题。性能分析与实验结果表明采用该计算模型可以显著提高运算单元的并行度。其次,研究了运动目标检测提取算法的硬件加速技术以及存储优化技术。相对于静态目标,在现实场景中,人们往往对运动目标更感兴趣。本文设计了对图像中不同运动目标进行分类的硬件加速结构;针对图像序列中运动目标数量、位置、大小等信息不断变化的特点,引出了“可变数据集合维护问题”,设计了一种通用的高速硬件链表结构,提高了对可变数据集合进行存取访问的灵活性。接下来,对于检测并提取出的运动目标,后续工作通常是运动目标识别。本文选取运动目标识别应用中计算复杂性较大且应用需求较广泛的行人检测识别与人脸检测识别进行重点研究。行人与人脸属于“非刚性目标”,与刚性目标不同,非刚性目标的轮廓是不规则且不断变化的,这不仅增加了计算的复杂性,也导致了对存储器数据访问模式的不规则性。本文研究了基于主动形状模型(ActiveShape Model,ASM)的行人识别硬件加速技术。针对计算复杂性较大所造成的计算资源不足问题,为了实现硬件代价和处理速度的适当平衡,提出了资源共享模式和硬件流水线方式相互结合、灵活配置的计算资源映射策略,基本思想是对于占用较多计算资源的非瓶颈任务,采用资源共享模式,将多个相同类型的操作映射到一个功能部件上分时执行,多个操作的源操作数通过多路选择器进入功能部件的输入端口,通过采用优化的指令调度算法,最大程度的缩短了同一类型的不同操作之间的启动时间间隔;而对于计算复杂性较大的瓶颈任务,分配较多的计算资源,尽可能的采用流水线技术和其它并行策略提高处理速度。本文在FPGA上构建了原型系统,实现了行人的检测、识别与跟踪,实验结果表明,与相关工作相比具有较大的速度优势。对于人脸目标,本文提出了一种精确分类的视角无关人脸检测方法,能够对垂直于图像平面±90度和图像平面内360度范围的所有人脸姿态进行快速准确地检测分类。树形检测器框架结构中的每个检测节点采用一种创新的两段式Boosting方法(Two-Stage Boosting,TS-Boosting)进行训练,核心思想是在判断一个样本是否属于某个姿态区间时,不仅要看该样本属于该姿态区间的概率有多大,还要看该样本不属于其它姿态区间的概率有多大。基于提出的算法,设计了硬件加速器,并提出了一种对硬件资源进行动态配置的设计空间探索算法。实验表明,本文提出的方法和硬件加速器与相关工作相比具有较高的检测准确率和处理速度。本文最后针对行人、人脸检测识别等一类具有不规则数据访问模式的图像处理应用提出了一种通用无冲突并行访问存储模型,在主存储器与处理器之间构建了一种多体存储结构,并将大部分的不规则数据访问模式归类为对图像中多个局部矩形兴趣区域(RegionsofInterest,ROIs)内的任意位置固定大小矩形数据块的无冲突并行访问。理论分析与实验结果表明该存储模型与相关工作相比更适合于多兴趣区域图像处理应用,与直接访问主存储器相比在访存速度上提高了几倍到上百倍。综上所述,本文面向目标检测识别应用,研究了使用硬件加速技术提高性能的关键技术,对算法并行特性分析、体系结构设计、计算和存储资源的灵活配置、面向不规则数据访问模式的并行存取模型等问题提出了有效的解决方案,对于推进目标检测识别技术的研究和实用化具有一定的意义和价值。
其他文献
随着我国经济的快速发展,商品种类的不断丰富,产地和销售地距离越来越远。人们对物流的要求也越来越高,物流在整个产品的生产和销售中的地位在不断加重。高效、低成本、准时
采用高效液相色谱法测定金针菇中的多酚类成分,使用AgilentZORBAXSB-C18分析柱(4.6mm×250mm,5μm),流动相为乙腈(A)-0.4%乙酸(B),其中0~40min为5%A-95%B,40~45min为25%A-75%B,45
众所周知,能否把握细节决定着成败。就如建筑设计本身,就是由很多的细节堆砌而成的。一旦某个细节出现了问题,则会导致整个建筑的质量大失水准,甚至于直接导致建筑崩坍。因此在建
配送企业之间的利益分配关系到盟员之间的信任团结和联盟的稳定运行,文章针对果蔬农产品的配送特性分别从入盟时间和配送距离两个角度,利用Shapley值算法来分析配送联盟企业
大型火力发电厂主厂房除氧煤仓间由于特殊的工艺布置和使用要求,竖向荷载在为控制荷载,框架跨度大,底层构件为薄弱环节,普遍梁柱线刚度比较大,结构的抗震性能较为不利。本文
褐飞虱(Nilaparvata lugens Stal)是一种典型的植物韧皮部取食昆虫,是水稻(Oryza sativa L.)最严重的害虫之一。在感性水稻上,褐飞虱会造成植株的叶面积、光合速率、氮含量、
三农问题历来是政治中的主角,也从来就不是孤立事件,其复杂性和逻辑性是其它问题难以比拟的。一个国家如何认识并处理三农问题,不仅直接影响该国的政治形态和未来走向,更对国
<正> 作文批改在整个作文教学中具有十分重要的作厢。具有针对性、启发性和指导性的批语,往往能增强学生的写作积极性,产生意想不到的效果。一、多批少改,意在启发叶圣陶老先
在刑法理论研究和司法实践中,由于被害人不属于犯罪主体的范畴,人们关注较多的通常是被告人,而忽略了被害人。现代刑法研究,不仅仅关注犯罪行为和犯罪人,同时也关注被害人行
以"红阳"猕猴桃果实为材料,通过测定乙烯释放量、果实硬度、可溶性固形物、可滴定酸、果肉VC含量等品质指标,研究适宜采收成熟度及1-MCP处理对果实的保鲜效果。结果表明:8月