基于语义加权的双层LSTM图像描述生成方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:longaizj21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,每天产生的图像规模都以亿计,呈爆炸式增长,这些图像具有很高的社会价值与商业价值。将图像与自然语言相结合在当前具有广泛的应用前景,图像描述生成任务就是对输入的图像生成准确描述图像的句子,它融合了计算机视觉和自然语言处理技术。近年来,基于深度学习的图像描述生成打破了传统方法的枷锁,取得了一些突破性成果。但是现有方法存在着对图像语义信息使用不充分、缺少特定场景处理等问题,为此,本文对基于深度学习的图像描述生成方法展开深入研究,主要工作分为以下三个方面:(1)提出基于Res Net-LSTM网络的语义标签提取模型。使用Res Net处理图像得到图像特征,并使用LSTM网络提取top-k的标签。针对网络之间直接传输数据会影响本层学习到的特征以及标签需要与描述之间相关联的问题,首先,在Res Net中添加线性层以及batch normalization层,对提取的图像特征进行转化并作为LSTM模型的输入。其次,预处理图像描述句子得到对应的标签,对模型进行有监督的学习,以生成与图像描述句子更加相关的标签。(2)提出基于语义加权的双层LSTM模型(A two-layer LSTM model based on semantic weighting,SW-2LSTM)。该模型将提取的标签向量直接作用于权重矩阵,并采用张量分解思想和集束搜索算法提高生成描述质量。针对语义信息使用不充分以及矩阵参数过多的问题,首先,将提取的语义标签向量全局作用于双层LSTM的权重矩阵,训练时每个标签对应一个权重矩阵,将原始的一个权重矩阵扩展为一个与标签相关的权重矩阵集合,这将形成一个具有大量参数的权重张量,为了减少参数数量,采用张量分解方式将形成的权重张量分解为三向矩阵乘积,提取出公共参数。其次,测试时在解码端加入集束搜索算法,算法通过加入概率模糊增加预测单词的不确定性,从而生成更优的图像描述句子。(3)给出基于场景分类的描述生成。针对现有算法一般采用多场景训练,没有考虑到特定场景的问题,将MS COCO数据集在其基本类别上划分场景,并使用SW-2LSTM模型在不同场景划分的训练集和测试集上完成描述生成任务。通过在公开数据集上进行实验,验证了提出的SW-2LSTM模型的有效性。
其他文献
学位
学位
学位
学位
棉花是一种重要的纤维和油料作物。棉花杂种优势利用是增产的重要途径。在生产实践中,棉花理想杂交制种方式是三系杂交。培育强优势不育三系杂交种的关键是创制优良的恢复系,因此围绕恢复基因开展相关应用基础研究显得尤为重要。哈克尼西棉细胞质雄性不育(CMS-D2)是棉花主要的细胞质雄性不育之一。然而,CMS-D2恢复基因Rf1至今没有被分离克隆成功,Rf1和CMS-D2胞质的互作机制仍不清楚。本研究利用Pac
应力波管道检测技术是一种方法简单、容易施工、检测管段长、开挖土地面积小并且能够实现动态检测的方法,而水锤是一种伴随着管道工况变化而时常发生的现象,并且由于其蕴含的巨大能量往往会引起强烈的管道振动,而且往往很难避免。当管道存在奇点(管道物理特性突变点,如应力集中、腐蚀、结垢、泄漏)时,管道、流体、其它边界条件的物理参数有可能发生一个或都多个改变,因此利用水锤激发的管道应力波振动,通过分析不同条件参数
学位
学位
学位
学位