基于标题引导的显著区域生成方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:wangcn426
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像标题(Image Caption)和视频标题(Video Caption)是近年来兴起的研究方向,其横跨计算机视觉与自然语言处理两大领域,吸引了研究人员的广泛关注。尽管Caption方法有着优秀的表现,但没有指明标题与图像或视频之间的联系。本文通过标题引导,借助深层模型实现自上而下的显著性,研究文本到图像或视频的区域定位。本文分别从增强模型的空间特征信息、时序特征信息、映射方法等方面进行研究。主要研究工作如下:(1)针对传统基于标题引导的显著区域生成方法对图像空间特征信息利用不充分问题,提出了基于梯度加权的目标激活映射的显著区域生成方法。该方法利用全局平均池化层(Global Average Pooling,GAP)提供图像中全局层面的空间信息,通过标题逐单词引导下生成的权重与卷积神经网络(Converlutional Neural Networks,CNN)最后一层卷积层的特征点乘生成每个单词引导的加权卷积特征,从而引入携带全局和局部空间信息的特征图,最后通过ReLU激活函数生成具有空间信息的显著区域。在Flickr30k数据集上的实验证明,所提出方法能够有效的提升显著检测的性能。(2)针对图像序列或视频标题引导的显著区域生成方法大多采用单帧信息和标题中所有单词进行引导而存在的时间信息缺乏和无意义单词影响显著区域生成精度的问题,提出标题实词引导下时空特征融合的显著区域生成方法。该方法采用自然语言处理工具包(Natural Language ToolKit,NLTK)对标题本身提取实词,减少无意义单词对显著区域生成的干扰;利用分解双线性池化操作融合CNN提取的静态特征与三维卷积神经网络(3D Converlutional Neural Networks,C3D)提取的时空特征形成增强时空特征表示;并将融合后的时空特征利用多层长短时记忆网络(Long Short Term Memory,LSTM)架构获得每个实义单词引导下的概率分布p,然后将每个视频段中关键帧送入多层LSTM架构中获得的概率分布q,最后利用KL散度生成显著区域。实验表明,时空特征融合方法能有效定位视频时空特征,显著提高显著区域定位能力。(3)针对传统的基于标题引导的显著区域生成的方法大多采用单一的编码方式和传统LSTM网络不能有效捕捉最有用的特征信息的问题,提出标题分层语义引导下强判别网络的显著区域生成方法。该方法使用词向量、一维卷积、双向门循环单元(Bi-directional Gated Recurrent Units,Bi-GRU)编码得到单词-短语-句子级别的特征,实现标题与图像或视频帧的多重映射。替换原有LSTM的tanh激活函数为线性整流函数(Rectified Linear ReLU),在每一个LSTM获得非负的神经元信号,同时将权重取反获得非正的神经元信号,最终解码器获得两种概率分布。最后,采用KL散度来计算单个视频帧与视频帧序列的信息增益大小来实现图像或视频帧的显著区域定位,两种显著图减去相交部分获得更具区分性的显著图。实验表明,分层语义能够有效实现文本与图像的多样化的联系,同时强判别网络能够对更复杂的环境进行区分,该方法极大地提升了模型的性能。
其他文献
本研究以加纳农业发展银行为研究对象,探讨激励因素及其对员工绩效的影响。进行这项研究的原因是,金融机构的员工存在工作积极性不高的问题。事实上,任何企业的成功或失败在
2004年,光大银行率先发行了第一款个人理财产品。自此,我国个人理财产品业务飞速发展。在这十几年时间里,个人理财产品从刚萌芽逐渐发展到爆发式增长。时至今日,个人理财产品
溴结构域和额外末端结构域(bromodomain and extraterminal domain,BET)家族蛋白是重要的乙酰化阅读器,家族成员包括含溴结构域蛋白(bromodomain-containing protein,BRD)2、BRD3
昆虫在长期的进化过程中形成了一套高度发达的嗅觉系统,嗅觉是昆虫与外界进行信息交流的主要方式。在嗅觉过程中,昆虫通过其嗅觉器官表面各种类型的嗅觉感器去感受环境中的挥发性物质,进而产生相应的生理或行为反应,如取食、寻找配偶、产卵、躲避天敌等。昆虫对气味分子的识别过程十分复杂,研究证实有多种蛋白参与其中,如气味结合蛋白(Odorant-binding proteins,OBPs)、化学感受蛋白(chem
补体系统由广泛存在于血清、组织液和细胞膜表面的30多种可溶性蛋白和膜结合蛋白组成,补体系统是天然免疫的重要组成部分,不仅参与炎症反应还能够提高适应性免疫应答。补体系
土壤在渍水和低pH条件下,由于氮肥的大量施用使铵态氮成为主要的氮源,而过量的铵会使植物发生毒害。本文利用收集的95份生态型拟南芥材料,采用水培试验方法,研究了2 mM NH4+
黔湘渝毗邻区是我国黑色页岩型锰矿的集中产区,近年来在该区域的找矿勘查取得重大进展,为沉积型锰矿成矿规律和成矿环境的研究提供了重要契机。黑色页岩型锰矿的形成与全球气
钾(K)是植物生长发育必不可少的三大营养元素之一,能参与调节酶活性、膜电位、细胞内稳态和蛋白质稳定合成等。已有大量的研究表明,植物从外界吸收钾离子主要是通过钾离子通
旅游信息服务,随着近年来旅游行业的快速发展,旅游信息服务面临服务内容层次薄弱、知识提取方法缺乏等问题,旅游信息服务亟需大量信息来满足用户个性化和多元化的服务需求。
具有高功率密度、高能量密度和高安全性能的可以反复充放电锂离子电池技术是便携式电子设备、动力电车以及大型储电站设备的优质能源。钛氧化物结构材料由于其独特的“零应变