面向分类和检索的视觉表达学习

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dulizhi123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会迈入数字化信息时代,快速增长的图像和视频量给数据管理和分析带来了巨大挑战,使得智能视觉数据分类和检索技术受到越来越广泛的关注。视觉特征的选择是这些技术中的关键环节。传统的特征提取框架依赖于手工设计的特征,不能直接反映出对视觉分类和检索至关重要的语义信息。相比之下,近些年发展起来的表达学习模型可以自动的挖掘数据中的统计结构和相关性,学习更为抽象的语义表达。  本文针对分类和检索问题,着重研究单层和深度学习模型的视觉特征表达学习,提出了新的表达学习模型,并用于处理复杂视觉数据。主要研究内容和创新点如下:  1、提出了一种基于无向主题模型的紧凑视频主题表达用于网络视频检索。该方法通过聚合词袋表示中视觉单词中不同的主题特征,将无向主题模型中的二进制隐含单元扩展为非负线性隐含单元,使其能够表示主题间的相对强度,从而更具区分力。同时,为了提高表达的可解释性,引入稀疏约束正则项控制主题的稀疏性。进一步,开发了一种随机梯度下降算法用于训练扩展的无向主题模型。与原始词袋表示和其他主题表达相比,提出的主题表达在检索性能和维度降低上都有着更好的表现。  2、提出了一种类相关受限玻尔兹曼机模型来学习无结构的群体行为和事件的中层语义表达,并用于视频分类和检索。该方法将稀疏贝叶斯学习与受限玻尔兹曼机(RBM)结合来学习具有区分力的与视频类相关的稀疏隐含特征;用非负线性单元替换RBM中的二进制随机隐含单元来更好的解释复杂视频内容,并使得提出的模型能够进行变分推理;开发了一种有效的变分EM算法用于模型的参数估计和推理。相比其它的一些隐变量概率图模型,提出的模型所学到的类相关特征提供了对视频数据更具有区分力的语义描述,在分类准确率和检索精度上获得了最好结果,尤其是在只使用很少的有标签训练样本的情况下。  3、提出了一种基于深度语义排序的方法来学习哈希编码,并用于多标签图像分类和检索。该方法利用深度卷积经网络来构建一种多层的非线性哈希函数,并且根据图像的多标签信息推导出图像间的语义相似度排序用于这种深度哈希函数的监督学习。在此基础上,使用一种基于代理损失函数的策略来解决模型学习过程中非光滑的多变量排序度量优化问题。提出的哈希编码能够保留多标签数据中复杂的多级语义结构,在排序质量上要优于当前一些最好的哈希编码方法,并且具有很好的分类效果。
其他文献
该文对具有大滞后的工业复杂对象的控制问题,进行了评述,对各种控制方法进行了论述和比较,同时将预测控制、模糊控制的现状与发展趋势作了一些综述.现有的模糊控制方法一般适
预见控制是未来目标值及示来干扰在一定程度上为已知的情况下,充分利用这种未来情报来改善控制系统的性能的方法.预见控制主要应用于对一定程度的未来目标值及干扰已知的控制
应用管理信息系统(MIS)作为企业生产和经营管理的工具已成为企业发展的必然趋势,许多钢铁联合企业都十分迫切地要求开发应用计算机管理信息系统.由于大型钢铁企业业务和管理
统计参数语音合成,特别是其中的基于隐马尔科夫模型(Hidden MarkovModel,HMM)的语音合成,近年来经过了一个快速而蓬勃的发展期,展示出一系列优点,包括输出语音平稳、流畅,可以快速
随着Web2.0技术的迅速发展和GPS手持移动智能设备的广泛应用,人们在使用各种社会媒体的同时以各种各样的形式分享自己的地理位置,产生了大量地理数据。例如用户在Flickr上分享
该文以马钢中板厂管理信息系统的研制课题为背景,结合结构化分析与设计理论,详尽地阐述了马钢中板厂管理信息系统的开发过程.在系统分析部分,该文从生产工艺流程角度详细地分
可视语音合成技术是人机交互领域和语音技术研究中一个重要的方向。人的语音由发音器官产生,因此人在进行语音表达时,必然会伴随着面部和发音器官运动的信息,这些视觉信息在人的
社交媒体时代,网络数据呈爆炸式增长,一方面用户陷入了信息灾难,难以快速发现和获取感兴趣的信息;另一方面,用户逐渐转变成了信息的创造者和传播者,参与到多个社会媒体网络平台,并
该文以马钢MIS生产管理子系统的开发为出发点,首先介绍了钢铁企业的特点及目前国内外管理信息系统的发展状况,结合MIS系统本身的功能与优点,提出现行使用的马钢生产管理子系
该文以石油历史生产数据为依据,以石油产品为指标,研究对比了以下几种预测方法在油田产量预测中的应用效果:基于Weng旋回模型的非线性回归方法和线性回归方法,基于ARMA模型和