基于BERT多任务联合训练的土木工程问答系统研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:troy0215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前土木工程领域信息化服务建设正处于发展阶段,设计人员在设计过程中会涉及到大量知识检索和知识问答的需求,而目前大量的领域知识、规范和标准都是非结构化文本的形式,知识库的构建存在着难度,口语化的自然语言问题也无法被有效解析,问答需求无法被满足。因此本文选定土木工程垂直领域的智能问答应用作为切入点,使用新型自然语言处理方法深入研究面向该领域的智能问答技术。本文的工作是基于知识库的土木工程智能问答系统构建,主要涉及自然语言处理技术。按上下游具体技术难点,分为问答句对自动构建技术、知识库自动构建方法、智能问答方法、智能问答系统构建四个方面。(1)针对土木工程领域问答句对语料数据量小的问题,提出了一套用于扩充问答句对数据集的模型方案,该方案是BERT、Transformer和UniLM结合的序列学习模型,使用二次预训练方法将大量开放域语料的语法、句法规则迁移到土木工程领域,结合该领域内的少量人工标注数据获取语义信息,并对模型堆叠模块随机采样分层训练,优化参数后生成高质量领域目标问句,最终形成领域自然语言问答句对数据。模型生成问句质量达到了最佳的26.19-BLEU,相比基线模型LSTM提升达12.78。(2)针对知识库构建难的问题,提出了用于自动化构建知识库的联合训练端到端深度学习模型CivilWoSpERT。该模型是基于子序列片段Span、融合了词晶格嵌入表示机制的命名实体和关系联合抽取方案。最终在命名实体识别任务上达到了 87.47的F1值,在关系抽取上达到了 78.66的F1值。(3)针对智能问答方法,提出了一种基于知识库的快速问答方法,该方法可解析自然语言问题并通过知识库检索返回目标答案。(4)在智能问答系统的构建方面,主要对系统进行前三阶段模型和方法的融入,采用主流的前后端分离Web系统方案完成整个智能问答系统的搭建。本文旨在通过以上内容对土木工程领域智能问答系统深入研究,逐个解决数据集数量小、信息抽取难度大、传统知识库对领域知识覆盖不足等针对性问题,通过深度学习方法构建一套能够满足实际智能问答需求的土木工程智能问答系统。
其他文献
近几年,我国医疗信息化建设已具有一定规模,信息系统已基本覆盖各基层医疗机构的各职能领域。然而在基层医疗信息化发展过程中,存在各基层医疗系统相关联的业务无法协同、相同医疗数据无法共享的问题。基层医务人员想要从大量的医疗数据中获取到有价值的信息变得愈发困难,从而造成了基层医疗机构人力和财力的浪费。数据中台的实践意义在于,通过数据建模实现跨业务域的数据整合和数据能力沉淀,为解决基层医疗信息化建设中存在的
随着公共基础建设的不断完善,地铁逐渐成为日常出行工具的首要选择。地铁工程建设包括规划、设计、建设和试运行等多个环节,其中设计环节是保证工程建设质量的关键,也是确保地铁安全、经济、适用的重要前提。地铁设计规范是约束这一环节的重要文件,是我国经过多年经验沉淀和反复论证研究的成果。本文针对地铁设计规范文本进行信息抽取,主要包括实体识别和实体关系抽取两个过程,以加速该领域信息化、智能化的进程。具体研究内容
随着互联网科技与在线教育技术的发展,网络在线试题规模迅速增长。目前,很多题库网站呈现试题量大但筛选结构单一的特点,导致试题迷航和学习针对性差等问题。现有大多数试题推荐方法仅利用已考察知识点对学生进行试题推荐,忽略了有相关关系但未考察的知识点,无法发现学生的知识漏洞和薄弱知识点,从而影响试题推荐的准确性。因此,本文基于课程知识图谱,根据学生学习过程中的知识点掌握程度,设计了一种个性化试题推荐方法。具
随着社会的进步,体育健身越来越受到人们的关注。目前,运动者获得健身方案主要是通过健身教练与在线网络平台这两种方式。其中,前者存在花费高、实时性差等问题;后者虽然可以随时随地支持运动者获取健身方案,但其提供的无差别方案不能支持运动者的个性化运动需求。有鉴于此,本文采用本体推理与相似性融合计算方法,结合体育学总结出的运动处方知识集,研究并设计出一种面向运动者在实时状态、适用强度、阶段目标等个性化因素下
动作训练需要专业性的指导,肢体动作的不规范者误都会对运动效果成较大影响。传统的动作训练法要有纸质图示学习、课堂直接学习法、视频录像学习等,这些方式虽然简单是存在着许多不足,比如学习效率低、学习成本高、不能及时得到反馈等。随着深度卷积神网的飞速发展,基于深度学习的人体骨骼关键点检测技术被广应用在人机交互、智能监控、动作分析等领域。将人体骨骼关键点检测技术与动作训练相结合,不仅能够促人骨关点检测领域的
近年来,深度学习在超分辨率重建任务中得到了广泛的应用。大多数超分辨率算法的数据都借助于外部实例,此类方法通过训练高、低分辨率图像块之间的非线性映射函数,得到超分辨率重建算法的网络模型,与传统方法相比取得了很大的进步。然而,基于外部实例的方法需要大量的训练数据,并且无法保证数据集中包含了所有高、低分辨率图像块映射关系;复杂的网络模型也使得训练过程十分耗时,尤其是需要训练不同尺度网络模型时;现实世界中
随着现代互联网信息技术的不断进步与发展,网络新闻的发布数量也在不断上升,面对巨量网络新闻信息,人们难以快速且准确地定位到自己想要掌握的内容。LDA(Latent Dirichlet Allocation)主题模型能够有效降低文本维度,在话题演化分析方面的研究也在不断增多,但LDA模型中主题数难以实现有效选取,该问题在相关研究中关注度仍显不足。为此,本文围绕复杂网络理论、模块度和LDA模型进行话题发
视觉信息在人类的生活中无处不在,而数字图像已成为其最为广泛与重要的信息载体。光场成像技术可同时捕捉三维场景下光线的空间信息与角度信息,为观察者提供比二维传统成像更丰富的场景三维可计算信息。不同于传统相机,现有主流光场采集方案采用两个平行双平面实现了对更高维度光场信号的采集。但是,受到光学系统设计与制备工艺的限制,光场相机成像结果的空间分辨率仍远低于传统成像系统,这限制了光场应用的进一步发展。针对上
随着智能时代的到来与计算机行业的飞速发展,目标跟踪技术在安防系统、无人驾驶、交通监控中的地位越来越突出,吸引了大量的学者专家投入研究。相关滤波算法以其兼顾跟踪速度与精度的优越性,近几年来备受瞩目。在实际的应用场景中,跟踪算法面临着目标多样性与背景复杂性等难点,其中目标的尺度变化更是影响跟踪性能的关键因素。本文在针对尺度问题提出的多特征的尺度自适应目标跟踪算法(SAMF)以及判别式尺度空间跟踪算法(
现阶段我国“教育+平台”的信息化服务模式正处于快速发展时期。在此过程中,学习者的网络资源日益丰富,教学环境逐渐完善,但同时海量的在线资源给学习者带来了“知识迷途”和“信息过载”等问题。有鉴于此,本文研究了一种在利用知识图谱对初中数学知识进行结构化表达的基础上,结合学习者个体特征给予其自适应调节的学习路径推荐方法,有利于激发学习者的学习兴趣,提高学习效率。具体的研究内容如下:首先,依据学习者个性化特