【摘 要】
:
随着自然语言处理技术的飞速发展,机器阅读理解逐渐成为学术界与工业界共同关心的热门话题,尤其是高质量数据集以及大规模预训练模型的提出更是促使这一领域取得了长足的进步。机器阅读理解作为关键的研究方向,其目的是使得机器能够像人类一样分析语义、理解自然语言并回答问题,从而可以提取文本中的重要信息。然而国内外机器阅读理解的研究主要集中在英文语境和部分中文特殊应用领域,如:司法、医疗、和军事等领域。由于中英文
论文部分内容阅读
随着自然语言处理技术的飞速发展,机器阅读理解逐渐成为学术界与工业界共同关心的热门话题,尤其是高质量数据集以及大规模预训练模型的提出更是促使这一领域取得了长足的进步。机器阅读理解作为关键的研究方向,其目的是使得机器能够像人类一样分析语义、理解自然语言并回答问题,从而可以提取文本中的重要信息。然而国内外机器阅读理解的研究主要集中在英文语境和部分中文特殊应用领域,如:司法、医疗、和军事等领域。由于中英文文本差异较大,面向中文领域的机器阅读理解方法仍存在一些待解决的关键问题,尤其是面向中文特殊应用领域,相关机器阅读理解方法研究仍处于起步阶段。目前,桥梁检测领域管理养护单位业已堆积了海量多源异构历史数据信息,其中公路桥梁定期检测报告中详细记录了桥梁基础属性、病害信息以及病害原因及处置建议等重要信息,由于桥梁检测领域业务本身的专业性和特殊性,这些文档信息仍然以文档链接的形式存储在数据库中,大量有价值的信息尚未充分利用,影响了运营维护单位的后续管理养护决策。本文以抽取式机器阅读理解作为主要研究内容,面向桥梁检测领域关键信息抽取任务,根据给定的文章段落文本和领域重点关注问题,通过建立端到端的深度神经网络模型,预测答案在目标文本段落中的开始位置和结束位置以获得问题对应的答案。针对现有的特定领域机器阅读理解方法存在的问题以及公路桥梁管理养护实体工程需求,本文开展了以下研究工作:(1)在数据集方面,目前业界尚未形成一个面向桥梁检测领域的机器阅读理解数据集,本文构建了一个高质量和较大规模的中文桥梁检测领域机器阅读理解数据集(Bridge Inspection Question and Answer dataset,BIQA),该数据集共涵盖了11820个问答对,按照桥梁工程领域需求可以大致划分为三类问题。在构建过程中,通过结合桥梁检测报告的文本特性和实际应用需求出发,在领域工程专家的指导下,制定相应的数据规范和标注体系,构建了以回答桥梁基础属性、桥梁病害检测情况、桥梁病害原因及建议为主的工程应用性数据集。该数据集用于后续桥梁检测领域专业知识机器阅读理解模型训练及性能评估。同时为机器阅读理解任务的语言多样性和领域多样性研究提供了一定的参考价值。(2)针对桥梁检测领域机器阅读理解任务中存在的大量长答案不完整、短答案冗余,即模型对答案的边界信息捕捉能力有待提升的问题。本文提出了一种通过答案长短特征分类指导桥梁检测领域机器阅读理解的模型LSG-MRC。该方法整体采用“问题分类+答案预测联合学习”的流水线式策略,首先以Ro BERTa_ww m_ext预训练模型对问题和文章进行语义表示,接着针对待预测答案的长短类型对相应问题进行二分类,然后将问题分类的结果用于指导阅读理解中的答案预测模块,即对不同复杂程度的问题文本进行抽取作业,最终以多任务联合学习的方式得到全部答案的开始和结束位置。实验结果表明,在自建的中文桥梁检测问答数据集上的EM平均值为89.4%、F1平均值为94.7%,相比基线模型,分别提升了1.2%、0.5%,证明了该方法的有效性。(3)针对桥梁检测领域机器阅读理解任务中存在许多专业命名实体语义信息捕捉不充分的问题,提出了一种融合图嵌入的桥梁检测领域机器阅读理解神经网络模型,可有效整合段落内部和段落与问题之间的命名实体信息。该方法利用图结构对所有桥梁检测阅读理解训练数据中的命名实体信息进行建模,训练得到包含两种边关系的实体节点向量表示,然后与基于Ro BERTa_wwm_ext的上下文表示进行融合,并在研究二的基础上,即采用“问题分类+答案预测联合学习”的流水线式策略加上图嵌入融合的方法进行了实验,实验结果表明,该方法可以取得更好的效果。在自建的中文桥梁检测问答数据集上的EM平均值为90.4%、F1平均值为95.8%,相比基线模型,分别提升了2.2%、1.6%,验证了该方法的有效性。
其他文献
草地是三江源区重要的自然资源,为了实现高效精准的资源利用和保护,遥感技术的应用发展是亟待解决的问题。高光谱测量技术使卫星影像包含的信息更加丰富,从而使精细化的草地信息提取成为可能。本文以兴海县为例,采用国产资源一号02D卫星观测的高光谱影像,结合实地样方调查,对研究区的草地植被类型及其光谱特征进行分析,并使用多种地物识别方法和光谱混合分解方法分别进行像元尺度及亚像元尺度的草地信息提取,进而探索利用
随着城市化进程的加快,城市人口规模的增加和私家车保有量的增长导致城市交通拥堵问题愈发严重。提升公共交通乘坐体验,吸引更多人优先选择公交出行是缓解城市交通压力的有效方法。为乘客提供准确的公交车运行时间信息是提升公交出行吸引力的重要举措之一,因此,本文针对公交车运行时间预测方法进行了一系列深入的研究。主要研究内容如下:(1)本文介绍了公交车GPS数据的基本信息,结合车辆运行速度分析了公交车运行特性,并
针对物理教学中实践性作业存在的问题,论证了建立实践性作业评价标准的必要性,提出核心素养导向下的实践性作业评价标准的框架,选取初中物理八年级实践性作业实例,提供物理实践性作业评价标准样例,以期对物理教学实践性作业的有效实施起到促进作用。
互联网和移动互联网的高速发展为人们带来了包括文本数据在内的海量信息,然而如何有效掌握其中的关键信息却实为学界和工业界的一个重要问题。命名实体识别和关系抽取作为信息抽取的两个核心任务,旨在通过对文档建模自动化地识别出文本中的实体及其对应的语义关系,并服务于众多下游任务:文本摘要、自动问答、知识图谱等。一般来说,传统的有监督实体识别和关系抽取多采用流水线策略。这样的策略之下,常常存在着错误传播,忽略子
近年来,随着汽车数量的不断增加,道路拥挤变得日益严重,随之而来的道路交通事故也在不断地困扰着交通管理者。为减少道路拥堵和人为因素造成的交通事故,世界各国将目光转移到了无人驾驶汽车领域。目前针对无人驾驶的关键技术研究已取得一定的成果,但在该领域依旧面临众多的问题,其中紧急工况下的无人驾驶汽车行为决策是急需解决的关键技术之一。基于深度学习理论的决策方法,因其所需大量行车数据训练模型,很难真正应用于无人
车辆轨迹预测是自动驾驶技术中承上启下的模块,通过收集感知模块的信息预测车辆的未来轨迹,为自动驾驶车辆躲避环境中的障碍物提供重要保障。但由于路网状况复杂、行驶环境不确定、环境中的障碍物种类繁多等问题,导致车辆预测轨迹和实际轨迹之间存在很大的偏差。因此,如何克服上述问题对轨迹预测的影响,提高汽车行驶轨迹预测的准确性、时效性是自动驾驶中急需解决的问题。本文研究内容如下:(1)对车辆轨迹数据和高精地图数据
位移作为桥梁结构健康的一个重要指标,它可推算出桥梁结构的动、静态特性。而传统的位移测量方法易受环境影响,不利于对其进行快速、便捷测量。将无人机与图像处理相结合的检测方法具有成本低、无接触、可快速部署和远距离多点测量的特点,受到了广泛关注。针对无人机图像的畸变,使用传统方法存在对图像质量和特征点的数量依赖性较高和无人机搭载能力受限的问题。本文首先采用深度残差网络估计了图像对应的单应性矩阵,从而对畸变
钢筋混凝土病害检测技术能够有效检测和预防混凝土建筑物的结构病害。深度学习网络因其强大的学习能力,被广泛应用于土木工程领域。深度学习中影响模型效果的常见因素便是训练数据不足,然而适用于深度学习数据集通常是稀缺的,迁移学习作为一种新兴的工具,能有效的解决上述数据短缺问题。而深度迁移学习正是通过深度神经网络来研究如何更好地利用其他领域(源域)的知识,提高目标域的学习能力的重要工具。为此,本文提出采用基于
由于植物姿态复杂多样和自身遮挡等问题,传统的基于单视角二维图像处理方法存在特征采集不完整、精度较低、通用性差等问题,已经不能满足植物表型学研究的需求。利用现代传感器(如深度相机、激光扫描、摄像头阵列等)数据采集,借助计算机视觉、图像分析、深度学习等最新算法,对观测植物进行多视角采集和三维模型重建,在三维空间进行植物器官分割,特征提取与分析,是当前植物表型研究的热门领域。本文提出一种基于深度学习和多
环境感知是智能汽车获取道路周围环境信息,从而做出控制和决策的基础。公路护栏作为道路交通中的重要环境要素,是智能汽车识别和检测的重要任务。现有的公路护栏目标检测多采用传统的数字图像处理方法,手工设计特征的方法复杂,对护栏的特征提取不充分,检测准确性和实时性不足。基于深度学习的护栏目标检测方法通过对护栏特征的提取和学习,能有效提高检测精度和速度。本文通过改进YOLOv4和Mask R-CNN,提出了两