【摘 要】
:
近年来,随着人工智能技术的快速发展,图像语义描述方法的性能得到了大幅的改进,尤其是编码器-解码器框架在该任务上的成功应用,解决了传统方法生成句子格式单一、准确度不高的缺点。在编码器-解码器框架中,解码器通过引入注意力机制来挖掘图像的局部区域特征,从而能够更加准确地预测对应的单词。然而,现有的基于注意力机制的图像语义描述方法在训练模型时同一时刻只能使用单个图像的局部信息,不利于视觉对象共性的学习。同时,当训练图像中存在视觉对象遮掩或视觉对象稀缺时,模型难以准确地预测出这些视觉对象。
针对上述问题,
论文部分内容阅读
近年来,随着人工智能技术的快速发展,图像语义描述方法的性能得到了大幅的改进,尤其是编码器-解码器框架在该任务上的成功应用,解决了传统方法生成句子格式单一、准确度不高的缺点。在编码器-解码器框架中,解码器通过引入注意力机制来挖掘图像的局部区域特征,从而能够更加准确地预测对应的单词。然而,现有的基于注意力机制的图像语义描述方法在训练模型时同一时刻只能使用单个图像的局部信息,不利于视觉对象共性的学习。同时,当训练图像中存在视觉对象遮掩或视觉对象稀缺时,模型难以准确地预测出这些视觉对象。
针对上述问题,本论文研究联合的注意力机制来提升图像语义描述中视觉对象的识别性能。相比于当前的图像语义描述算法,本论文从算法理论,算法结构和应用价值三个方面进行了创新,主要概括如下:
1.提出了联合注意力机制的结构。相比于传统的单样本注意力机制,该机制在同一个时刻可以探索多个图像局部区域,从而提高视觉对象的学习能力。
2.在算法结构上,提出了虚拟LSTM单元。多个虚拟LSTM单元在同一时刻可以接收多个图像区域特征并同时学习,从而更加准确地捕捉到视觉对象的共性。
3.在实际应用中,该方法可以解决不同域上的视觉偏差问题,从而在一定程度上解决了图像语义描述任务中的迁移学习问题,节省了样本标记的成本。
为了验证本文方法的有效性,本文在MSCOCO和Flickr30K数据集上进行了大量实验。实验结果表明我们的方法在B-1和F-1指标上提升明显,从而证明了联合注意力机制在图像语义描述中提升了视觉对象的识别准确率。另一方面,相比于前沿方法,我们的方法在各项指标上都展现了更好的性能并在一定程度上解决了图像语义描述领域中的迁移学习问题。
其他文献
黄色的Top点就在眼前,Jania折膝、伸出右手去抓住打在灰色造型上不到一个指节宽的钉点,人工岩壁后的麦克风清晰地录下了她大口喘息的声音,挂右脚,臀部发力将自己提起,重心倒向右边,左手伸向右手的上方。 此时,Jania Garnbret距离Top点只有最后的六七个动作,在她之前出场的4个人,最高点也不过是日本老将野口启代所达到的28号支点,而Jania现在右手抓住的,是37号支点。 粗重的呼吸
总觉得中国人过年就应该是红色的,灯笼、爆竹,还应该有北方冬日里红彤彤的热闹。而这种红色仿佛经过了千百年的积淀,一直融入到我血脉的深处和记忆的角落。所以,早早的就为自己制订了一个完美的春节,自驾车回家过年,然后任滑雪场里泡上几天。于是把眼光放在了北大湖,北大湖位于吉林的西南方,是国内的“度假胜地,滑雪天堂”。海拔1408米的南楼山为吉林地区的最高峰,三面环抱,营造出一个雪量足、雪期长,风力小,气候宜
场景感知是计算机科学、智能科学和机器人学等学科关注的重要任务之一,在无人驾驶、人机交互、卫星遥感等领域都具有广泛的应用价值。语义分割旨在从像素层面上划分场景的具体类别,然后对不同类别赋予特定的语义。由于具有语义丰富、定位精准和效果直观的特点,语义分割已成为场景感知任务的主要解决手段之一。然而,随着数据规模的扩大与场景复杂度的增加,当前面向复杂场景的语义分割方法仍存在计算低效、参数量大、实时性低等不足。从科学研究的发展趋势与用户的日常实际需求来看,如何在有限的存储与计算资源的条件下,利用语义分割技术精准、快
哈布斯堡家族的战败不仅标志着三十年战争的结束,也标志着地理大发现的落幕,但直到一个多世纪后,欧亚大陆上依然有着许多不为人知的秘境仙林,曾经让世人避之不及的恶龙居所阿尔卑斯也向世人张开了怀抱…… 1741年,两位英国探险家误入了一个景色绝美的山谷,干年不化的洁白雪山,浑然一体的碧透蓝天,平衍旷荡的谷间草地,奔腾激扬的清冽河水……这里的牧民过着亘古未变的田园生活,远处巨大的冰山发出的轰鸣,仿佛述说着
互联网技术的普及使得人们的生活更加便利,但同时也带来不容忽视的安全隐患。拒绝服务(DoS)攻击具有规模大、危害强的特点,是当前互联网安全的巨大威胁。其变种之一的低速率拒绝服务(LDoS)攻击通过周期性地向目标服务器发送短时高速脉冲式攻击流来降低其服务质量。因此这类攻击还具有更低的平均攻击速率和更好的隐蔽性,现有的DoS攻击检测算法无法识别。目前已经存在的LDoS攻击检测算法也普遍存在检测速度慢、准确率不高、误报率高和缺少自适应能力等问题。
LDoS攻击通常利用TCP自适应机制的漏洞来发起攻击,因
夜晚,小小熊躺在床上,翻过来,滚过去,怎么都睡不着。 是外面刮风下雨、电闪雷鸣,小小熊吓得不敢睡吗?才不是呢!今晚特别美好,云朵静静的,月亮静静的,大树和小鸟静静的,草丛和虫子也静静的。 是屋子里黑咕隆咚,小小熊有点儿害怕吗?才不是呢!卧室里点着灯,客厅里点着灯,厨房里点着灯,就连冰箱里也点着小小的灯。 哎呀,小小熊忘记关冰箱门了。 让我们瞧瞧,冰箱里有什么?哦,有一块蜂蜜蛋糕、两块蓝莓饼
网络流量数据在各类网络工程中扮演了至关重要的角色,我们通常使用二维矩阵或者更高维度的张量对这类数据进行记录。受限于网络数据的监测和传输代价等客观因素,我们所构建的数据模型往往是不完整的。张量填充就是用来解决这样的问题,它将数据建模成张量,并利用观测到的小部分数据对张量中的缺失数据进行填充进而得到一个完整张量。目前,张量填充已经广泛应用于容量规划,负载均衡等网络工程当中。传统张量填充算法对于遵循正态分布的数据具有良好的填充效果,但对实际应用中呈现尖峰厚尾分布特性的网络监控数据作用效果不佳,实验表明,在使用传
现今网络技术飞速发展,信息感知已无处不在使人们的生活越来越智能化。但随着数据量的与日俱增,人们在享受定制化服务带来的便利的同时也承担着不小的安全风险。传统呈中心化的平台管理模式导致海量数据的存储与传输产生高昂的成本;而且收集的数据也不能得到完全的保护,在传输过程中容易受到恶意窃取、造成私密信息的泄露。因此在对等实体间建立信任,构建安全有效的信息共享机制极具价值。区块链技术去中心化、防篡改、高度透明的优势恰好为解决上述存在的问题提供了新的方法。本文针对当前数据共享中急需面对的细粒度访问控制和安全难题提出了一
电视剧《露营物语》中的男主角大木健人,没事就会去露营店闲转,再顺手买上一顶NEMO帐篷回家,真是让人羡慕不已。在日本有如此商品种类繁多,可以足足逛一天的露营店铺存在。 而本篇的主角TENT-MARK DESGNS便是来自日本大型连锁露营店铺WILD-1旗下的私有品牌。凭借超过30年的店铺经营经验,对产品品质的把控,再加上WILD-1店铺随处可见,可以亲手体验的商品展示,TENT MARK一躍成为
星期天,木木没老实待在家里写作业,撒了谎,下了楼。刚一出楼口,木木就闭上眼睛摸索着往前走。这是因为木木一看见奔驰的汽车、高耸的大厦就头晕眼花。 这下有热闹看啦。大街上出现一个摇摇晃晃、横冲直撞的“盲孩”!汽车、自行车、行人,都得规规矩矩地停下让路,还假装挺客气的样子,其实大家心里急得直嚷嚷—— “哪儿的孩子?胆子这么大,敢上街!” “好像在哪儿见过,挺面熟的。” …… 人们惊奇地看着盲孩