难度可控的视觉问题生成算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:shumoljw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题生成是自然语言处理的一个热门研究话题,有着丰富的应用场景,可以促进教育、对话系统、阅读理解等领域的研究与发展。最近几年,问题生成领域快速发展,研究学者提出许多方法来生成各式各样的问题。然而,在视觉问题生成领域,目前大部分研究仅仅基于图像来生成问题,而忽略了问题的难度。问题的难度在评估生成问题的质量中扮演着十分重要的角色。为了吸引用户,一个优秀的自动问题生成器应根据用户的能力和经验生成不同难度的问题。本课题研究如何定义问题的难度并构建包含难度标签的数据集用以生成和评估实验,研究如何融合难度信息到模型中以指导难度可控的问题生成。针对难度可控的视觉问题生成任务,本文首先借鉴教育领域的难度指数定义了问题的难度,即根据视觉问答模型是否能正确回答问题来评估问题的难度,并设计了一种自动标注策略来构建包含问题难度标签的数据集。基于此,本文提出了一个基于图卷积网络的模型来生成难度可控的问题。具体地,该模型主要包含两个关键模块:难度可控的图卷积网络(DGCN)模块和难度可控的解码器模块。DGCN模块用来捕捉给定难度标签条件下的图像中对象之间的关系。难度可控的解码器将难度信息结合到解码器初始化和每个时间步的输入中,以控制生成问题的难度。实验结果表明,该模型不仅在几个自动评估指标上取得了显着改进,而且可以生成难度可控的问题。考虑到上述根据视觉问答模型是否正确回答问题来定义问题难度是不全面的,这容易受到所选视觉问答模型的影响。此外,问题只定义了两个难度级别:简单和困难。问题难度应该是多样化以及可解释的。针对这一问题,本文重新定义问题的难度为回答问题所需的推理步骤数,这种难度定义方式反映了对推理和认知能力的要求。针对以上问题,本文提出了基于迭代式的难度可控的视觉问题生成模型,该模型主要包含一个初始解码器和细化解码器。初始解码器根据输入的图像、答案以及推理链生成一个初始的简单问题。然后,在更复杂的推理链的基础上,细化解码器逐步将初始问题重写为更困难的问题。为了有效地训练该模型,本文设计了多种策略从现有的大规模公开数据集中自动构建训练数据。本文模型在构建的数据集上超过了一组强基线模型,同时本文通过难度控制实验、案例分析以及错误分析阐明了模型的优缺点。
其他文献
事件论元提取(Event Argument Extraction,EAE)是事件提取任务中的关键子任务,要求从半结构化或非结构化的事件提及中识别作为事件论元的实体及其在事件提及中扮演的论元角色。高效准确的事件论元提取能够帮助用户从中大量的事件中提取关键信息并构建结构化的事件知识图,因此成为了信息提取领域的研究热点之一。将事件论元提取建模为机器阅读理解或问答任务是目前的一种研究趋势,基于论元角色的提
学位
目前在企业和行业的各种场景中流行使用面部生物识别技术验证用户身份。与其他生物识别技术相比,人脸面部图像获取代价较低,存在多种成本低廉的攻击方式,因而人脸识别系统存在着巨大的安全隐患。人脸反欺诈(Face Anti-Spoofing,FAS)在防止人脸识别系统遭受欺诈攻击方面举足轻重。得益于深度神经网络强大的特征提取能力,基于深度学习的人脸反欺诈算法取得比基于传统手工特征算法更好的性能,成为近期的研
学位
在飞机向多电/全电化的发展趋势下,机电作动器(Electromechanical Actuator,EMA)越来越多地应用在飞机上,主要是用在飞行控制系统中。一般作动系统都带有余度,这是为了满足了可靠性的要求,但是其带来的力纷争问题可能会对飞机的性能、结构等造成较大影响,从而降低飞机的安全性。为了研究并解决余度机电作动系统中存在的力纷争问题,本文建立了双余度机电作动系统的数学模型,并设计了EMA的
学位
在过去的十几年间,区块链技术得到了巨大的发展。基于去中心化的公有链搭建的货币系统层出不穷,在全球范围内吸引了大量用户。去中心化的公有链看似是未来金融系统的不二选择,其实不然,公有链系统存在四大缺陷。第一,公有链与中心化金融系统相比,交易吞吐量太低。比特币和以太坊的峰值交易吞吐量仅为每秒7笔和15笔,而VISA峰值为24000笔,支付宝峰值为256000笔。第二,公有链出现了中心化的趋势。比特币和以
学位
“哈龙”灭火剂因破坏臭氧层被禁止使用,寻找环境友好和灭火性能优越的替代灭火剂成为急需解决的焦点问题。民用飞机由于运行环境特殊且一旦发生火灾救援难度较大,所以机载灭火剂除了具备优越的灭火性能还需满足飞机适航性相关标准。民用航空界一致认为与哈龙性能相近的化学灭火气体是最可能的哈龙替代品。然而化学灭火气体数以十万计,性能差异较大,所以研发综合性能优良的新型高效化学灭火气体的工作量较大。而探究化学灭火气体
学位
超声成像是医学成像领域的主要模态之一。深度学习技术具有强大的学习能力,拥有广泛的应用前景。近几年来,超声成像与深度学习技术结合的研究方兴未艾,在波束形成后数据合成、下采样恢复、波束形成等方面取得了一定的研究进展。然而,目前的研究工作还比较有限,代表性工作偏少。波束形成是超声成像的关键步骤,因此探索波束形成与深度学习技术的结合对超声图像质量的提升具有重要意义。由于其强大的学习能力,深度神经网络可用来
学位
飞机在服役过程中承受不同形式动载荷的作用,这些动载荷的确定对故障诊断、设计优化等具有重要意义。但是受限于工程实际中的复杂情况,往往无法使用力传感器直接获取动载荷数据。因此,有必要研究一种基于结构振动响应来间接获取动载荷的技术。本文针对谐波载荷和冲击载荷建立不同的识别模型,基于GARTEUR模型验证载荷识别方法的有效性,基于数值计算与试验相结合的方法探究载荷识别模型的适用性。并以某型飞机全尺寸有限元
学位
伴随着飞机可靠性的提升,人的因素作为保障民航安全和效率的关键要素已被广泛认可。但是近年来,飞行机组因素却已成为诱发飞行事故的重要原因。飞机运行过程中,存在大量的工作应激源,适当的应激反应能够增强飞行机组的警觉性,提升突发事件的处置水平,可是应激反应一旦过强,则会诱发人的差错,严重威胁飞行安全。本研究旨在探究工作任务应激下差错发生时飞行员的多种生理指标参数值的差异,分析差错与应激的关系,对飞行差错进
学位
CCAR33部第21条中明确规定:发动机的设计与构造必须在飞机预定工作条件下提供必要的冷却。气膜冷却在涡轮叶片冷却中起到了非常重要的作用。但是在涡轮设计过程中,为保证航空发动机的安全性和经济性,即在保证冷却效果的前提下将掺混损失降低至最小,快速准确地预估掺混损失成为了一个重要的课题。本文采用数值模拟的方法,围绕叶栅环境下冷气射流与主流掺混过程中对流场与掺混损失的影响这一问题,对相关内容展开系统的研
学位
组合优化是最优化中与算法理论、运筹学相关的一个分支,在人工智能、软件工程、理论计算机科学等领域都有重要的应用。在结构化组合优化问题中,背景数据不是由单一的数据类型构成,而是由存在相互依赖关系的多个数据模块组成。不同问题样例的背景数据维度差异较大,难以用固定规模的机器学习模型处理。尽管已有研究人员尝试借助机器学习方法解析组合优化问题信息模块间的相互依赖关系,但现有的基于学习的组合优化算法仍然缺乏合适
学位