论文部分内容阅读
随着社会迈入数字化信息时代,快速增长的图像和视频量给数据管理和分析带来了巨大挑战,使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉特征的选择是这些技术中的关键环节。传统的特征提取框架依赖于手工设计的特征,不能直接反映出对视觉分类和检索至关重要的语义信息。相比之下,近些年发展起来的表达学习模型可以自动的挖掘数据中的统计结构和相关性,学习更为抽象的语义表达。 本文针对分类和检索问题,着重研究单层和深度学习模型的视觉特征表达学习,提出了新的表达学习模型,并用于处理复杂视觉数据。主要研究内容和创新点如下: 1、提出了一种基于无向主题模型的紧凑视频主题表达用于网络视频检索。该方法通过聚合词袋表示中视觉单词中不同的主题特征,将无向主题模型中的二进制隐含单元扩展为非负线性隐含单元,使其能够表示主题间的相对强度,从而更具区分力。同时,为了提高表达的可解释性,引入稀疏约束正则项控制主题的稀疏性。进一步,开发了一种随机梯度下降算法用于训练扩展的无向主题模型。与原始词袋表示和其他主题表达相比,提出的主题表达在检索性能和维度降低上都有着更好的表现。 2、提出了一种类相关受限玻尔兹曼机模型来学习无结构的群体行为和事件的中层语义表达,并用于视频分类和检索。该方法将稀疏贝叶斯学习与受限玻尔兹曼机(RBM)结合来学习具有区分力的与视频类相关的稀疏隐含特征;用非负线性单元替换RBM中的二进制随机隐含单元来更好的解释复杂视频内容,并使得提出的模型能够进行变分推理;开发了一种有效的变分EM算法用于模型的参数估计和推理。相比其它的一些隐变量概率图模型,提出的模型所学到的类相关特征提供了对视频数据更具有区分力的语义描述,在分类准确率和检索精度上获得了最好结果,尤其是在只使用很少的有标签训练样本的情况下。 3、提出了一种基于深度语义排序的方法来学习哈希编码,并用于多标签图像分类和检索。该方法利用深度卷积经网络来构建一种多层的非线性哈希函数,并且根据图像的多标签信息推导出图像间的语义相似度排序用于这种深度哈希函数的监督学习。在此基础上,使用一种基于代理损失函数的策略来解决模型学习过程中非光滑的多变量排序度量优化问题。提出的哈希编码能够保留多标签数据中复杂的多级语义结构,在排序质量上要优于当前一些最好的哈希编码方法,并且具有很好的分类效果。