论文部分内容阅读
随着网络以及自媒体的高速发展,大数据时代悄然而至,如何高效地分析和处理这些大数据,尤其是从海量的图像数据中挖掘出有价值的信息已成为各个领域的研究热点。海量图像数据中行人图像占较大比例,是这些数据中比较重要的组成部分,并且在监控安防、刑事侦查、寻找丢失老人与小孩以及电子商务管理方面都有一定的应用,行人再识别由此也成为在这些领域识别个体的重要依据。面对海量的行人图像数据,如何高效快速及时地进行行人再识别已成为这些领域研究的关键性问题,因此研究如何提高海量行人图像再识别的效率,是一个具有理论研究意义和实际应用价值的课题。目前云计算、分布式计算已成为处理海量数据的前沿技术,其中最炙手可热的是Hadoop分布式计算框架,已经广泛应用于学术界和工业界的海量文件处理并取得了较好结果,但对于海量图像文件处理的研究还不够成熟,需进一步努力完善。本课题基于Hadoop平台从行人图像处理和行人再识别算法的并行化和计算模型的优化策略角度出发,研究海量行人图像再识别的高效计算和处理海量碎片化行人图像数据。论文的主要研究工作概括如下:(1)由码本(CB)采集背景颜色,统计每个像素从而估计基于高斯混合模型(GMM)分布的参数,计算高效的CB方法能够实时构建和更新背景模型,并采用GMM分布从CB集群计算其参数检测前景区域。基于CB的GMM学习使用并行划分和计算具有分布式多线程体系结构,可对多个节点进行扩展,并可在同一进程内的线程之间共享数据,并消除进程内的冗余数据副本。(2)研究Hadoop图像处理方法(HIPI)优化行人图像的存储以及行人图像数据的并行化处理。用户只需要指定一个HIPI图像束(HIPI Image Bundle,HIB)作为输入,HIPI负责将浮点图像发送给Mapper,并将任务并行化。HIB是在HDFS上表示为单个文件的图像集合。HIPI通过Map Reduce并行程序在集群上执行,从而促进高效和高吞吐量的图像处理。(3)针对空间分布的全局外观潜在变化的行人再识别问题提出一种基于空间约束和二次相似度学习算法。通过Hadoop平台实现了空间度量学习算法的并行化,设计行人再识别的特征提取和特征识别的并行化过程,运用并行计算模型Map Reduce高效存储和计算二次相似度函数的多项式特征图,并进一步计算行人图像的局部相似度和全局相似度。