基于多问题学习方法的视觉问答研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:charles8025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习(Deep Learning)的迅速发展,计算机视觉领域的研究重点逐渐从相对简单的图像分类转移到计算机对视觉信息的理解上来。人类在浏览图像或视频的时候,不仅仅只是识别出其中的物体,也会理解其中所蕴含的高级语义知识,比如环境,情感,气氛,暗示等。为了从图像和视频中感知这样的高级语义,学术界提出了诸多的数据集及任务,如看图说话(Image Captioning)。视觉问答是近几年来学术界新提出来的问题。视觉问答(Visual Question Answer,VQA)是一种涉及计算机视觉和自然语言处理的学习任务。作为视觉理解(Visual Understanding)的一个重要研究方向,将视觉和语言结合起来,模型需要在理解图像的基础上,根据具体的、形式自由的、开放式的自然语言问题作为输入,然后给出合适的答案。解决视觉问答的关键点之一就在于如何融合从图像/视频以及问题中提取出来的视觉和语言特征并进行联合学习。现有的工作在模型的学习方式上采取文本-视频/图像对的形式进行相互独立的训练。受到多任务学习(Multi-task Learning)方法的启发,本文提出利用视觉信息和对应的多个问题之间的隐含关系可以有效地提升回答问题的准确性,并能够良好地泛化到其他的新的问题上。具体而言,本文提出了多问题学习(Multiquestion Learning)方法,即将视觉信息和与之对应的多个问题共同训练,在模型中将多个问题的权重进行硬共享(Hard Sharing)。多问题学习方法包含两个具体的机制,多问题注意力机制和多问题预测机制。多问题注意力机制的目的是为多个问题生成一个共享的视觉特征。多个问题分别对视觉信息进行注意力加权之后再融合为一个共享的特征向量。多问题预测机制的目的是将图像/视频对应的多个问题联合训练。多问题预测将目标问题和其他相关问题的信息结合到一起并产生一个共同的损失进行反向传播。此外,本文针对视频问答(Video QA)设计了一个效果良好的视频问答框架来验证多问题学习方法。视频问答算法在理论上解决了如何利用人工智能理解图像或视频中的高级语义信息的问题,打通了计算机视觉和自然语言之间的界限,探索了计算机对人类视觉信息理解的基本原理。同时,视频问答算法也可以广泛地运用到生产生活中,提升社会的生产力,丰富和方便人民群众的日常生活。如通过自然语言对图像或视频内容进行检索,制造能够理解多种媒体信息的智能问答系统等。通过在两个大规模公开数据集上进行了充分的实验,表明了多问题学习方法的可行性和有效性;探索多问题注意力机制和多问题预测机制的基本原理;模型的性能大幅度超过目前最先进的视频问答解决方案。
其他文献
背景膀胱癌(Bladder cancer,BC)是一种常见的泌尿系统肿瘤,每年都会引起大约15万人的死亡,寻找其有效地治疗方法仍然是人们研究的重点。细菌已经被证明具有一定的治疗肿瘤的作用。卡介苗(Bacille Calmette-Guérin vaccine,BCG)作为一种细菌减毒活疫苗能够用于膀胱癌的治疗,但由于引发了PD-1/PD-L1的激活,影响了其治疗效果。为了找到一种更加有效的方法,我
学位
目的探究过量的锌对结直肠癌细胞迁移、侵袭能力的影响及其潜在机制,并进一步探究CRIP1是否通过转运锌离子调控GSK-3β/m TOR信号通路影响EMT进程,从而影响结直肠癌细胞的侵袭和转移。方法1.使用不同浓度(0μM、0.5μM、5μM、10μM、50μM、100μM、125μM、150μM、200μM)的Zn SO4处理SW620和Lo Vo细胞24小时,计算细胞存活率,选择3个对细胞的抑制率
学位
背景乳腺癌是女性中最常见的诊断癌症,也是癌症死亡的重要因素。我国是乳腺癌发病率增长速度最快的国家之一,每年以3%的速度递增,且发病年龄逐渐趋于年轻化,严重威胁着广大女性的生活质量和生命安全。化疗即化学治疗是利用化疗药物杀死癌细胞达到治疗效果的一种治疗方式,是乳腺癌全身治疗的重要手段,但化疗耐药现象的出现使其临床疗效并不理想。紫杉醇是乳腺癌化疗的一线药物,但肿瘤细胞对紫杉醇的耐药抵抗严重影响着其治疗
学位
背景糖尿病性心肌病是心脏疾病的一种特殊形式,由胰岛素抵抗、代偿性高胰岛素血症和高血糖症发展而来,而高血糖症的发生独立于其他心脏危险因素,例如冠心病(coronary heart disease,CHD)和高血压。研究表明,Ⅱ型糖尿病是发生心力衰竭(heart failure,HF)的独立风险,而在Ⅱ型糖尿病患者中,血糖控制是预防心脏功能障碍和HF的关键。B型钠尿肽(B-type natriuret
学位
背景:宫腔内病变是一类疾病的统称,常见类型包括:子宫内膜息肉、宫腔残留、子宫粘膜下肌瘤及子宫内膜癌等。不同疾病的病因和发病机制不同,但发病早期临床表现差异性不明显,增加了临床诊断及治疗难度。作为最能被广大患者接受的超声检查,若能在宫腔内病变的诊断中做到物尽所能,最大程度地为患者提供,清晰的超声图像和有效的诊断信息,就可以减少患者检查种类和检查次数,尽可能减少检查的社会成本,降低患者检查痛苦,最大限
学位
背景精神分裂症(Schizophrenia,SCZ)是一组病因未明的重型精神疾病,多发生在青壮年时期,影响世界约1%的成年人口。其临床诊断主要依赖于医生对病人症状的主观判断,非常不客观,容易引起误诊。因此急需找到客观的分子物质作为临床诊断的标志物。近来越来越多的研究发现非编码RNA(non-coding RNA,nc RNA)包括微小RNA(micro RNA,miRNA)、长非编码RNA(Lon
学位
以浙江醉美人酒业有限公司同山烧生产工艺为研究对象,通过对发酵酒醅的全程监测与分析,改进了同山烧生产工艺的技术参数;同时利用气相色谱-质谱联用技术对该公司生产的西施家50°同山烧酒成品酒进行分析,建立了共有指纹图谱。本研究取得的主要结果如下:1、优化了发酵工艺参数:通过对发酵酒醅的发酵温度、水分含量、酸度、淀粉、还原糖、酒精含量这6项理化指标的全程监测,结合原有的工艺,将原先的发酵周期调整为144h
学位
背景乳腺癌作为女性最常见的恶性肿瘤之一,近年来在我国的发病率居高不下,并有越来越高的趋势出现,严重影响着女性的生活质量和身心健康,引起了社会的关注。乳腺癌相关的血清肿瘤标志物在乳腺癌的早期诊断、复发和转移检测、疗效评价等多个方面都有着重要的作用。常见的血清肿瘤标志物是CA153、CEA、细胞角蛋白19片段抗原21-1(CYFRA21-1)、肿瘤异常蛋白(TAP)等,但这些肿瘤标志物单独用于疗效预测
学位
Working On What Works(WOWW)焦点取向班级辅导模式是基于焦点解决短程治疗Solution-focused brief therapy(SFBT)的基本理念和假设发展出来的一套班级辅导模式。该模式在国外有广泛的应用,其最大的优势是可在自然教学环境中,根据班级的实际需要选定辅导目标,且操作简便易于推广应用。在对杭城6所小学12名低年级教师进行半结构式访谈中,了解到一线教师的实际
学位
现如今,空气污染问题变得日益严重,雾霾天气在全国各地频现,严重影响了人们的身体健康。聚砜(PSF)材料作为高效的过滤材料,其在水过滤应用上已经卓有成效,但在空气过滤应用方面尚没有很大的进展。由于普通工艺下的聚砜膜强力较低,无法满足空气过滤的强度要求,因此本次实验将给聚砜膜增加一个基底材料,并改变铸膜液的组分配比,研究复合膜材料作为空气滤料的过滤性能。本次实验采用复合的方式,将PSF铸膜液涂覆在熔喷
学位