【摘 要】
:
视觉问答任务要求模型能够理解输入的图像和文本问题内容,然后给出相应的答案。相比只需要处理单一模态信息的纯文本问答任务,视觉问答要对视觉模态和文本模态的信息进行多模态信息融合处理,这样的任务更符合人类面对问题的真实场景,更接近具有推理能力的人工智能形态,存在较高的研究价值以及在医疗辅助、安防、幼儿教育等领域有着广阔的应用场景。目前,视觉问答任务面临着以下问题与挑战:在模型面对来自图像和文本语言两个不
论文部分内容阅读
视觉问答任务要求模型能够理解输入的图像和文本问题内容,然后给出相应的答案。相比只需要处理单一模态信息的纯文本问答任务,视觉问答要对视觉模态和文本模态的信息进行多模态信息融合处理,这样的任务更符合人类面对问题的真实场景,更接近具有推理能力的人工智能形态,存在较高的研究价值以及在医疗辅助、安防、幼儿教育等领域有着广阔的应用场景。目前,视觉问答任务面临着以下问题与挑战:在模型面对来自图像和文本语言两个不同模态信息的输入时,如何高效的处理多模态信息并得到准确的视觉图像特征表示、自然语言文本特征表示或者是图像文本特征联合表示存在着挑战;模型如何提取高维的图像特征和文本特征以及实现图像文本语义对齐;模型如何根据文本问题来提取图像中相应的物体属性或物体关系特征并进行推理,这些问题都阻碍着视觉问答任务的进一步发展。针对以上问题,本文通过模拟人类在面对现实场景问题时的感知、认知推理过程对视觉问答模型提出了改进方案。主要研究内容如下:(1)本文通过数据集中的标注数据并且提取数据集图像中的物体、属性以及物体关系构建了一个图像关联知识图谱,并结合Word Net中不同的语义相似度计算方法设计了上述知识图谱中的实体关系权重。提出了基于知识图谱特征嵌入及注意力增强的视觉问答框架,将知识图谱中的图像场景结构化知识特征与文本问题特征以及图像特征相结合,在一定程度上解决了图像文本语义对齐问题。(2)本文提出了一种基于跨模态预训练与知识图谱特征对齐的视觉问答框架,通过引入Transformer结构编码图像模态与文本模态信息,以及设计了知识图谱实体预测、关系预测、属性预测、图像ROI区域掩码类别预测、图像文本匹配判断等多个预训练任务让模型学习图像、文本、知识图谱联合特征,有效解决了多模态特征融合和更细粒度的图像文本语义特征提取问题。实验结果表明,在视觉问答模型中加入含有图像场景信息的知识图谱特征能有效的辅助视觉问答任务性能提升。
其他文献
摄像机标定是计算机视觉学科中一个很基础的问题,通过标定摄像机,可以进一步的恢复图像的三维空间信息,而标定结果的好坏决定了后续工作能否顺利进行,因此具有较大的研究意义.现存的标定算法种类较多,二次曲线因稳定性较好,且容易获取,因此被广泛研究.本文在针孔模型下,通过分析共焦二次曲线的公切线性质,提出两种摄像机标定方法,算法具体如下:针孔摄像机下,有心共焦二次曲线的四条公切线相交于六个点,其中两组为实焦
为研究3种渐缩段结构形式对限流文丘里管内部流场状态及限流性能的影响,对3种不同渐缩段的文丘里管在正常补水以及临界工况下的流体性能进行试验,研究其压损与限流特性;并基于ANSYS Workbench,对试验工况进行数值模拟。结果表明,出口压强计算值与试验值误差分别为2.0%, 0.5%, 0.5%,与试验结果吻合良好。模拟结果表明,压损系数与文丘里类型相关,与管道流场速度无关;渐缩段为弧形弯曲两次形
温度是猕猴桃在北方栽培的主要限制因素,当前山东省猕猴桃主栽品种为耐寒中华猕猴桃泰山1号。品种的单一会导致采摘期集中且货架期较短,不利于猕猴桃产业发展,因此,开展适宜冬季低温气候条件的猕猴桃优良品种的引进,对于山东省猕猴桃产业结构发展尤为重要。选用泰山1号、徐香、脐红和龙城2号自然越冬猕猴桃枝条进行各项生理指标和转录组测序,对枝条进行不同梯度低温处理和生理指标测定。徐香猕猴桃冻害最为严重,丙二醛含量
人类从古至今就趋向于寻找自然环境条件优越的区域定居,而地表自然环境复杂多样,山地区域自然环境条件更加复杂,人居适宜区的选取与合理规划成为区域发展的重要内容。在多种自然条件限制下进行山地乡村宜居区的搜寻属于空间规划中的多目标优化问题,应用GIS空间分析功能能够对简单的空间优化问题进行求解,但是对人居自然环境适宜区的选取涉及的因素比较多,空间数据量比较庞大,单纯利用GIS空间分析处理的时间成本较高,运
土壤侵蚀不仅改变土壤的质量、威胁粮食生产安全,而且影响全球生源要素循环乃至全球变化。土壤微生物在土壤生态系统的物质循环与流动、生物化学地球循环以及生态脆弱区的水土保持等方面有重要作用。然而,在客观环境中,许多因子都对土壤微生物多样性有重要影响,很难确定侵蚀与土壤微生物多样性间的直接关系。因此,为排除地形、气候因子和地表植被对土壤微生物的影响,本研究基于前期在元江-红河流域采用削土-配土法构建的具有
党的二十大报告概括提出并深入阐述中国式现代化理论,在世界现代化史上、在人类文明发展史上、在科学社会主义运动史上都是一个重大的理论创新,彰显历史唯物主义的真理性和时代性,重构了世界政治经济地缘。全面梳理中国式现代化的历史演进,深入分析中国式现代化别于西方资本主义现代化的本质特征和独特优势,从实践和理论两个维度,系统阐述中国式现代化的创新性、科学性和先进性,深刻剖析百年大变局下推进中国式现代化的历史际
目的:探讨补肾养精颗粒抑制卵巢颗粒细胞凋亡治疗早发性卵巢功能不全的机制。方法:选择动情周期正常的SD雌性大鼠40只,随机分为空白组、模型组、中药组、激素组,每组各10只,模型诱导期间,空白组予生理盐水灌胃14 d,其他组予50 mg/kg雷公藤多苷片混悬液灌胃14 d建模。其后,空白组、模型组分别予生理盐水灌胃15 d,中药组予3.50 g/kg补肾养精颗粒灌胃15 d;激素组予0.1 mg/kg
随着遥感技术的发展,基于遥感影像的人工、半人工和自动化地物提取取代人工实地勘测成了最主要的土地覆盖信息提取方式。相对于利用单一数据源分类容易导致的地物混淆问题,利用多源遥感数据相结合提取和更新土地覆盖信息更能有效提高分类精度。本文以加拿大不列颠哥伦比亚省大温哥华地区的素里市(Surrey)东部地区为研究区,利用2009年和2013年正射影像光谱、形状、纹理特征和激光雷达(Light Detecti
劳动教育是一种端正学生劳动态度,帮助学生树立正确价值观与劳动观的教育。在小学班级建设中,只有将劳动教育与班级建设的每一个细节融合到一起,才能提升班级整体竞争实力,才能更好地对学生实施德育、智育、体育、美育教育。班主任作为劳动教育的组织者与实施者,应对传统劳动教育形式与方法进行优化和改进,并通过新颖的教学模式激发学生的劳动热情,进而在丰富学生业余生活的同时,为学生的全面发展打下坚实基础。
随着数据规模递增,数据挖掘难度也随之增加,机器学习处理高维数据集时性能也有所下降。特征选择作为数据挖掘的重要手段之一,能够选择出较高信息量的特征子集并保证分类准确率。同时还可以过滤冗余信息,降低数据维度,增强后续算法的表现性能。为了有效研究特征选择,本文将利用元启发式算法——灰狼优化算法解决该问题。灰狼优化算法是根据生物界中灰狼种群层级和活动行为而设计出的算法,能够平衡探索和开发过程,呈现良好收敛