论文部分内容阅读
伴随着移动互联网和传统互联网的飞速发展,每天都有着数量众多的文档、图像和视频在互联网上出现。目前,互联网上的视频图像数据量已经达到了PB级别,而且它们还将会急速地增长,这表明人们已经进入到了海量视频图像数据的时代。面对数量如些庞大的视频图像数据,传统的平台已经无法对如此海量视频图像数据进行处理,而且传统的数据库对于视频图像这种非结构化的数据也不能很好地存储。因此,如何建立面向视频图像的高效且易扩展的大数据处理平台来满足海量视频图像的存储与管理,并为视频图像的处理提供所需要的服务,这成为了研究的重点。面对这个问题,本文设计了一个面向视频图像的大数据处理平台,为海量视频图像数据提供了存储、计算与检索功能。在这个大数据平台中,主要依据视频图像的内容特征进行数据的存储与检索。整个大数据平台是由Hadoop和HBase所组成的,Hadoop完成对海量视频图像数据的分布式并行计算,而HBase则完成对海量视频图像数据的分布式存储。针对图像数据,采用SIFT算法来对图像的内容特征进行提取,并使用局部敏感哈希函数将提取得到的特征描述子转化为索引,把相似的特征值映射到同一个哈希桶中并对相关数据进行存储;而对于视频数据,采用颜色直方图的方式来对其进行镜头分割,并对分割后的镜头进行关键帧提取,随后按照图像数据的处理方式对关键帧进行处理,并把相关信息进行存储。在检索时,对需要检索的视频图像数据进行特征提取并构建索引,依据索引在HBase数据表中进行检索并将最相似的N个结果返回给用户。面向视频图像的大数据处理平台采用的是主从式的架构模式来进行搭建的,使得平台具有很好的扩展性和容错性。在实验中使用视频图像数据对大数据平台进行性能测试,测试的结果查表明面向视频图像的大数据平台可以有效地处理海量的视频图像数据,克服了传统数据处理平台的不足之处。而且,大数据平台可以快速而有效地对平台中视频图像数据的进行检索并返回给用户。