【摘 要】
:
视觉问答任务是一个相对比较新的研究领域,不同于图像分类、目标检测、语义分割等传统视觉任务,视觉问答是将一张图像和关于这张图像的任何形式的问题作为输入,输出一个与问题相关的正确答案。因此视觉问答是一项结合计算机视觉、自然语言处理和多模态特征融合的任务。在医疗领域,自动化辅助系统提供的“第二意见”可以增强临床医生解读复杂医学图像的信心,所以医疗领域的视觉问答技术作为新型数字化智能医疗设备投入临床的应用
论文部分内容阅读
视觉问答任务是一个相对比较新的研究领域,不同于图像分类、目标检测、语义分割等传统视觉任务,视觉问答是将一张图像和关于这张图像的任何形式的问题作为输入,输出一个与问题相关的正确答案。因此视觉问答是一项结合计算机视觉、自然语言处理和多模态特征融合的任务。在医疗领域,自动化辅助系统提供的“第二意见”可以增强临床医生解读复杂医学图像的信心,所以医疗领域的视觉问答技术作为新型数字化智能医疗设备投入临床的应用具有很大的市场空间和潜力。本文就医学图像上的视觉问答系统开展了研究,并针对视觉问答系统的核心部件:图像特征提取和文本特征提取,多模态特征融合,答案预测等几方面进行深入研究、改进和创新。本文研究内容如下:本文首先提出了VGBM模型(基于生物医学语料库的Bio BERT医学视觉问答模型),VGBM模型的主要思想是采用预训练VGG16网络的部分中间层输出+全局平均池化提取图像特征,文本特征的提取采取在医学文本语料库上预训练好的Bio BERT模型提取,然后将提取得到的两种特征采用协同注意力机制(MFH)的方法进行融合,最后输入一个分类层进行答案的预测。其次,使用基于句子结构化和图像注意力机制的方法进一步改进VGBM模型,在图像特征的提取上引入了通道注意力机制,在文本的处理上使用了句子结构化映射的方法,进一步优化了模型,使得模型性能得到进一步提升。最后,将本文所提出的模型在医学视觉问答数据集Image CLEF 2019 VQAMed、Image CLEF 2020 VQA-Med以及VQA-RAD上进行了实验,结果表明本文的模型在三个数据集上均取得了良好的效果。
其他文献
影响最大化是社会网分析的一个重要研究方向,在广告营销,舆情控制等领域具有广泛应用,影响最大化方法旨在寻找一组具有较高影响力的初始种子节点,最大化传播和扩散节点的影响范围。目前主要的影响最大化方法主要是针对同质社会网,同质社会网只是现实世界同类对象与对象之间关系的一种简述,并不能真正的表达现实社会中多种对象类型之间的社会关系。异质社会网中多种对象类型,多种对象间关系类型蕴含着丰富的结构和语义信息,有
社交网络的发展为信息的快速传播带来了新的潜力,而确定网络中具有影响力的节点被视为这种潜力能够付诸行动的关键因素,影响力最大化的问题也由此被提出。影响力最大化问题旨在从给定的网络中找到固定大小的种子集,再经过特定的传播模型,使最终的信息扩散范围达到最大。正因为其在商业领域的巨大应用潜力,影响力最大化问题受到了广大研究者们的青睐。目前关于影响力最大化问题的研究大多都集中在同质信息网络,忽视了不同类型节
信息时代的浪潮不断推进,但空间数据的指数级增长与海量数据的处理能力不匹配,由此空间数据挖掘应运而生。空间co-location模式挖掘能发现空间中频繁关联的特征,在空间数据领域得到广泛关注。本文研究的空间co-location主导特征模式挖掘方法,能够发掘不同重要性的空间特征,为空间数据分析及决策提供支持。在空间co-location模式的主导特征挖掘中,特征实例的空间分布状态是衡量模式中特征主导
随着互联网上的数据海量增长,信息过载严重阻碍了人类社会的发展,推荐系统应运而生,它通过过滤、筛选匹配等手段,以解决信息过载的问题。传统的推荐系统核心问题是根据用户的历史反馈对用户和项目之间的交互进行建模,但这种建模的方式是静态的,只能捕获用户的共性偏好。在现实生活中,用户的习惯往往是序列化的行为,而不是独立的交互。此外,用户的偏好和物品的流行程度也会动态变化。不同的上下文通常会导致不同的用户项目交
当今的大数据时代下,在数据挖掘、机器学习、图像、文本等领域中都存在类不平衡问题,类不平衡问题一般指不同类别之间样本数量的分布不平衡。基于机器学习的分类算法处理普通的平衡的数据集时较为有效,但数据集存在类不平衡问题时,会产生类别重叠、样本量小、边界模糊和小分裂群等问题,这将影响后续分类器的学习,导致其性能低下。目前解决类不平衡问题的方法可归纳为三类,数据级方法、算法级方法和集成方法。数据级的方法是针
随着后基因组计划的进行,以及高通量生物测序技术的蓬勃发展,推动生物数据呈现出指数级的增长,生物计算已经渗透到了生物学的各个领域,以蛋白质的琥珀酰化为例,判断蛋白质序列中的哪些赖氨酸残基发生琥珀酰化修饰,是蛋白质功能研究中一项非常重要的工作。通过传统的方式来处理这种问题主要通过质谱分析的方法,这种方法会耗费过长的时间周期,以及巨大的人力财力,因此近年来开发了多种基于计算的方法。本文从蛋白质序列出发,
随着在线社交平台飞速的发展,社交媒体成为人们获取信息的主要来源,在线营销成为主流的营销方式。大量商家将自己的产品在网络发布,通过社交网络进行病毒式营销。营销的关键在寻找具有影响力的种子用户,通过种子用户的口碑传播实现最大化影响范围,提升营销效果。为了找到符合要求的种子用户,影响力最大化问题被提出,并受到学界广泛的研究。传统的影响力最大化问题往往只关注影响范围,忽略了营销中的商业因素。真实的病毒式营
伴随着我国对破产企业救治和清算工作的稳妥推进,破产相关案件的优化审理对市场规范、资源整合的重要影响也愈加凸显。破产和解制度作为破产的三大支柱之一,在对企业救治中发挥着积极作用,但其较之破产重整制度,其运用率仍然较低。探其缘由,一则是在美日等国对传统破产和解制度的深度改革,导致和解制度面临退出历史舞台之尴尬境地。另一则是由于作为替代机制的破产重整制度不断革新和发展,我国破产和解制度在立法上存在缺漏,
新型冠状病毒(SARS-Co V-2)是一种RNA病毒,其Spike蛋白的受体结合域(RBD)与人类ACE2受体结合,从而介导病毒进入细胞。随着新型冠状病毒在全球的持续爆发,出现了大量RBD区域组合突变(相对于野生株)的新毒株。已有研究表明,RBD-ACE2的结合亲和力与新型冠状病毒的侵染能力相关。然而,通过生物试验方式获取突变毒株RBD-ACE2结合亲和力费时费力,且远远落后于突变株序列的积累,
纹理合成是计算机图形学领域的基础研究课题之一,随着多媒体技术的发展,纹理合成也在许多新型领域中得到应用,如游戏建模、电影渲染、虚拟绘制等。基于样本的纹理合成方法要求合成与样本图像尽可能相似的纹理,传统方法在实现这一目标方面取得了显著进展,然而对于复杂的纹理图案,已有的方法由于提取特征能力不足而导致合成结果错误。近年来,深度学习方法被广泛用于图像处理领域,然而,无论是传统的纹理合成方法,还是最近出现