【摘 要】
:
图像描述是一项集机器学习、计算机视觉和自然语言处理于一体的跨模态任务。该任务要求算法模型能够对视觉和语言两种不同模态的信息进行转换。当前大多数研究主要集中在图像的英文描述,而对图像中文描述的研究相对较少。目前大多数方法过分依赖于语言模型,缺乏对图像视觉信息的足够关注。如何根据中文特点应用视觉语义特征,论文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法专注于学习图像高层视觉语义
论文部分内容阅读
图像描述是一项集机器学习、计算机视觉和自然语言处理于一体的跨模态任务。该任务要求算法模型能够对视觉和语言两种不同模态的信息进行转换。当前大多数研究主要集中在图像的英文描述,而对图像中文描述的研究相对较少。目前大多数方法过分依赖于语言模型,缺乏对图像视觉信息的足够关注。如何根据中文特点应用视觉语义特征,论文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法专注于学习图像高层视觉语义对应的中文属性信息,结合目标检测和注意力机制,形成多层次、多粒度的属性上下文表示,能够丰富描述语句的表述内容和实现视觉-语义的有效关联。该算法已在当前中文图像描述数据量最大最完善的AI Challenger2017图像中文描述数据集和广泛使用的Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法较现阶段主流图像描述算法在各项评价指标上均有约3%-30%的较大幅度提升。实际生成效果也显示,该算法能够为图像生成准确、丰富、相对比较生动的中文描述。相关源代码和模型已在github公开。
其他文献
铅是土壤中不易降解的重金属污染物,香樟作为我国特有的经济树种,铅毒害使香樟木材质量、园林美观度以及观赏效果受到严重影响,为探究重金属铅污染防控技术,以香樟(Cinnamomum
原子厚度的非层状二维结构近年来备受关注。基于密度泛函理论(DFT),我们对一些二维材料的性质进行了预测和研究。我们完成了两项主要任务。在工作的第一部分,我们预测了非层状的二维ScC结构并评估了其作为钠离子电池电极材料的潜力。通过计算内聚能、声子谱和势能曲线,我们确定了ScC层的稳定性。有趣的是,我们所提出的ScC层可以表现出意想不到的电化学性质。结果表明,ScC层具有较强的Na吸附能力。纯的ScC
随着化石燃料的不断开采与使用,能源短缺和环境污染问题成为亟需解决的两大课题。光催化技术具有高效且环保的优点,被认为是最具潜力解决上述两大难题的方式之一。石墨相氮化
钛及钛合金作为航空航天专属材料的一种,有着其它金属不可替代的优良性能。而近α型钛合金Ti6242合金的工艺特性以及综合性能较为突出,焊接性能较好。传统的熔焊技术在焊接过程中变形大,容易产生气孔、夹杂、组织粗化等焊接缺陷,闪光焊具有焊接变形小、焊接缺陷少、适用范围广等优点,成为钛合金焊接的重要工艺之一。本课题对截面为33×55 mm的Ti6242型材进行闪光焊焊接,分析了焊接接头组织转变特点及性能关
黑色素瘤是一种严重的恶性皮肤癌,目前仍然在寻求有良好疗效的治疗药物。而蒙药的抗癌作用越来越被人们研究熟知,并且肿瘤血管生成被认为是癌症进展的一个主要标志。因此,我
随着我国城市化的快速推进,为有效使用城市地下资源,我国希望将掩埋与地下的各类管网集中放置在地下城市管廊中,便于集中管理和维修。本文研究一种由隧道钢模台车演化而来的
随着工程建设对软土地基承载力和沉降要求的不断提高,各种地基处理技术不断发展涌现。砼芯水泥土桩(CDCM桩)是在传统的水泥搅拌桩施工完毕后插入预制混凝土芯而形成的一种复
随着可穿戴设备的快速发展,基于位置的社交网络(LBSN,Location-based Social Network)越来越受到人们的重视。POI推荐作为LBSN的一个研究热点,它通过对海量签到数据的分析和挖掘,给用户提供个性化的服务。这不仅让平台更加了解目标受众,还为用户带来了极大的便利,也因此在各个领域被广泛应用。与传统的推荐系统相比,POI推荐更具有技术挑战。一方面,用户签到的频率过少导致数据
水是生命的起源,自来水关乎到一个城市的发展。全国自来水供水管线从2005年的37.9万公里直至2015年已经增长至71万公里。当由于自来水管线运行时间长,施工失误以及其他原因导
抽芯铆钉是飞机上使用的重要标准件,主要用于结构开敞性不够而需要单面铆接的部位,直接影响到飞机结构连接的紧密性以及机体的稳定性。我国飞机上使用的抽芯铆钉依赖于进口产品,国外封锁了抽芯铆钉的关键技术,制约了我国抽芯铆钉的技术水平的发展。因此,抽芯铆钉的研制生产已成为我国航空标准件的热点。抗拉型抽芯铆钉是系列化抽芯铆钉之一,钉套是抽芯铆钉的核心部件,其表面热处理工艺质量影响抽芯铆钉的铆接效果。因此,本硕