论文部分内容阅读
随着网络带宽的增长和图像技术的发展,Web上图像资源变得越来越丰富,形成一个海量的图像资源库。Web图像检索致力于解决从这个海量的图像资源库中,帮助用户快速地、准确地检索到所需要的图像信息。在Web图像检索系统中,为了减少对所需要图像的查询时间,为用户提供快速且有效的检索服务,采用数据挖掘领域中的聚类技术来对网络上的图像进行聚合归类,建立图像索引。然而,Web图像检索所面对的是大规模的网络图像数据,现有的大量聚类算法在处理大规模数据时效率较低,不能满足Web图像检索中对网络图像进行聚类的效率要求。根据EMD相似度匹配算法,在动态自适应图像聚类算法的基础上,提出了并行层次化自适应图像聚类算法,克服动态自适应图像聚类算法效率下降的缺点,充分利用动态自适应图像聚类算法适合对网络图像进行动态聚类的优点,即聚类过程不依赖聚类中心点和聚类个数以及聚类层数。动态自适应图像聚类算法最大的缺点在于,算法复杂度为O(MN),即在已得聚类的规模M保持稳定时,随着图像数据规模N的增大,算法花费的时间会线性增长。影响图像聚类性能的因素有两个,即I/O时间和EMD匹配时间。在并行层次化自适应图像聚类算法中,使用全局EMD匹配方式整合了聚类过程,有利于动态自适应聚类算法的并行化实现;采用内存方式减少I/O时间。在聚类的并行化实现中,采用数据并行使各个结点并行进行EMD相似性匹配,减少串行聚类中的EMD匹配时间;采用消息机制使各个结点上的聚类信息保持一致,并在主结点上进行结果的合并,保证了合并后结果的有效性。通过对系统的性能测试,应用并行层次化自适应图像聚类算法,提高了图像聚类的效率。通过与串行图像聚类进行对比,可以获得较好的加速比。采用5,10,20个结点进行并行图像聚类,加速比分别为3.5,7.5,16。