融合图像场景及物体先验知识的图像描述生成模型

来源 :中国图象图形学报 | 被引量 : 0次 | 上传用户:maigcy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的目前基于深度卷积神经网络(CNN)和长短时记忆(LSTM)网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型(F-SOCPK),将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNNd-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNNd-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LMO中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上(如MSCOCO),其优势较为明显;但在较小的数据集上(如Flickr8k),其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。
其他文献
目的:探究妇科千金片与金刚藤胶囊联用对慢性盆腔炎(CPID)患者的临床疗效及其对炎症因子水平的影响。方法:选取2017年11月—2018年12月期间收治的CPID患者90例资料,按用药方
目的研究灵芝多糖肽对人脐静脉内皮细胞(HU-VECs)氧化损伤的保护作用。方法原代培养人脐静脉内皮细胞,CD31免疫荧光法鉴定细胞。以叔丁基氢过氧化物(tBOOH)为氧化剂损伤细胞,造成
目的探讨围绝经期女性患者焦虑抑郁情绪的检出率和影响因素。方法采用自编问卷、抑郁自评量表(SDS)和焦虑自评量表(SAS)对2011年12月-2012年12月在浙江省金华市中心医院住院治疗
为了解决数据结构课程实验教学中普遍存在的问题,以创新人才培养为目标、以学生为中心,对实验教学内容以及实验教学方法进行了改革和实践。通过算法演示实践教学,增强学生的
“核心价值不仅仅是理论体系、观念体系,还包括从理念到实践的整个过程。完整的核心价值不能停留在理念层面,当代中国核心价值的实现必须以形成核心价值风尚为落脚点。”社会
本文介绍了三偏心蝶阀在煤化工行业50万t/a氨醇装置中的应用,就以往生产装置中调节阀的使用情况、存在的问题进行了分析阐述,并对新建项目调节阀的改良选型、使用情况作了应
重症急性胰腺炎是外科急重症之一,发病急,病情重,并发症多,病死率高达40%~80%(1).患者大多死于多器官衰竭和严重感染,治疗困难,迄今尚无统一的满意方案.近3年来,我科在对该病
着重介绍现代有轨电车与步行、非机动车、出租车及常规公交系统之间的关系,探讨了如何能够和谐、统一、共存,如何发挥各自最大的效能,作为一种新型的交通系统,使其真正能够为
目的:探讨关节镜联合胫骨高位截骨术治疗膝关节骨性关节炎合并半月板损伤的短期临床疗效。方法:选取2017年10月至2018年10月在本院接受关节镜联合内侧开放式胫骨高位截骨术治
随着素质教育的实施,培养学生的全面素质成为教学工作者的普遍共识,教育理念及教育方式也趋向于多样化,其中德育教育是一种行之有效的促进学生素质提高的方式方法。班集体是