基于深度学习的非事实型医疗问答系统关键技术研究

来源 :深圳大学 | 被引量 : 1次 | 上传用户:emmajqf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统允许用户以自然语言的方式进行提问,并且能够快速给出精确的答案,具有高实时性、高准确性以及交互友好性等特点,引发了学术界和企业界的广泛关注,近年来在各应用领域中得到快速发展。目前问答系统主要是基于检索的方式,该类问答系统可以保证返回的答案语法正确、流畅度高。然而检索问答系统极度依赖于已有的数据集,只能与已存在数据集内的答案进行匹配,返回的答案固定,不具有多样性,并且存在匹配速度慢,实时性不足的问题。而生成式问答系统通过对问句理解,可以自动采样生成具有个性化、多样性的答案,可以很好的解决检索问答系统实时性、多样性不足的问题。近年来,事实型问答系统中的答案生成任务取得了比较好的效果,该类研究通常采用基于注意力机制的序列到序列学习框架作为基础模型,构建指针网络生成模型,其源输入或者额外的知识源能够提供足够的信息进行拷贝指导生成简短的答案。然而非事实型医疗领域问答任务的问句往往是病人根据自身情况以较口语化形式组织而成,当源输入携带信息不足时,不仅编码器获取的编码信息不足,而且指针机制无法拷贝足够有效的信息,模型生成效果并不好。针对上述问题,本文研究基于生成式的非事实型医疗问答系统的构建,目标是针对病人所提出的非事实型问句进行病情分析,给出诊断治疗建议,并以自然语言的形式返回给用户。主要工作内容如下:首先,为了解决深度学习模型在非事实型医疗问句分类任务训练存在的过拟合问题,本文提出了基于字级别的文本卷积自编码网络医疗问句分类模型。该模型在文本卷积神经网络的基础上引入了自编码结构,分别在字级别和词级别语义单元上进行了实验,实验证明基于字级别的实验准确率上取得了更好的效果,并且添加自编码结构可以有效的过滤噪音,降低过拟合现象。另外,本文自定义问句分类体系,并将类别与问句和答案中的症状、疾病名、诊疗方案等进行绑定,分类模型抽取到的类别信息可以更好的指导生成模型选择类别相关的词汇进行生成。其次,为了解决在推理阶段答案生成任务单一源输入问句携带信息不足,传统的编解码模型编码不足,指针生成网络无法拷贝足够有效的信息,而导致生成答案流畅性和相关性指标不好的情况,本文提出了结合图卷积自编码推理和指针拷贝的答案生成模型。该模型考虑到训练和推理阶段的曝光偏置问题,使用图卷积自编码模型对全局答案的关键信息进行推理,在指针网络的基础上同时融合问句和答案关键信息,模型在答案生成时选择更关键的信息指导模型生成。实验证明本文提出改进指针生成模型,可以有效的提高生成答案的相关性和流畅性。本文构建的医疗问答系统能够从以用户-医生问答对表示的丰富的问诊历史数据中学习到医疗知识经验,针对用户对自身病症的描述,提取关键特征,并分析得到用户的病情,再给出进一步的诊疗建议,生成多样性的候选答案,推送给医生,并由医生最终确定最优的答案返回给用户。此外,模型可以自动生成医疗回答模板,相比于事实型问答系统,得到的生成答案携带信息更加丰富,句子更长,更具有人性化。
其他文献
背景:龋病是影响口腔健康的常见疾病,通常治疗龋病的方式是先去除病变组织,然后用材料充填。以临床上最为常见的牙本质龋为例,其病理改变由深部向表面分为透明层、脱矿层、细
在一些对功率等级、控制性能和可靠性要求较高的场合,传统的三相电机由于其本身的限制,无法满足需求。而多相电机有着效率高、转矩脉动小、容错运行能力强等优点,因此在船舶
随着“创新、协调、绿色、开放、共享”五大发展理念的提出,绿色创新日益成为人们关注的焦点与重视的对象,绿色创新是为了使经济获得绿色发展与可持续发展,其可以为中国实现经济高质量发展提供动力和途径。但是,当前我国绿色创新发展存在不少问题,如创新程度不高、创新效率低。产城融合是城市解决产城分离问题的重要手段,其对城市发展日益重要。绿色创新会受到产业与环境的影响,产城融合又会对产业与环境产生影响。产城融合的
水泥混凝土路面的热屈曲问题一直是影响其使用性能的重要问题之一。但是目前现有的研究大多是经典边界条件下的薄板问题,对复杂弹性转动约束边界条件下的研究还比较少。因此,
地震是一种具有巨大破坏力的自然灾害。大部分地震所造成的破坏是由地震作用的水平分量造成的,但大量事实与研究证明了地震作用的竖向分量也具有严重的破坏性。竖向地震能造
Ⅱ-Ⅵ族化合物CdS和ZnO是常见的宽带隙半导体,具有重要的光电应用。它们具有较小的自旋轨道耦合能,有望获得较长的自旋弛豫时间。本论文利用时间分辨法拉第/克尔旋转光谱技术较为全面的研究了n型CdS单晶和ZnO单晶的电子自旋相干动力学,主要研究内容及成果如下:(1)系统研究了六方纤锌矿n型CdS单晶在不同温度、不同激光波长下的电子自旋相干特性。发现在低温下存在两种自旋信号,一种为较短泵浦探测波长下存
约束分裂四元数矩阵方程问题就是在满足一定约束条件的矩阵集合中求分裂四元数矩阵方程的解.不同的矩阵方程或不同的约束条件,就会得到不同的约束分裂四元数矩阵方程问题.本硕士论文主要研究求解分裂四元数矩阵方程的直接解法,分别通过分裂四元数矩阵复表示和实表示将分裂四元数矩阵方程转化为复矩阵方程或实矩阵方程,再利用列拉直算子,Kronecker积,Moore-Penrose广义逆来讨论它们的相容性条件,解的表
油脂是食品的重要组成成分,主要以水包油(O/W)乳液形式存在于食品体系中。以微滴形式分散于乳液中的油脂极易氧化,油脂氧化最终导致食品变质。蛋白质为O/W乳液常用的食品乳化
出砂是油气井开发开采过程中常见的现象。合理范围内的出砂有助于提高油气井产量,但过度出砂会造成诸多问题,影响生产井正常作业。为了解决传统单个传感器及其监测系统在监测性能上的不足,以及优化系统处理结构、提高系统适用性、实现更加高效的监测,本文进行了基于FPGA的相控阵列出砂监测方法与系统的研究,首先进行了相控阵出砂信号的在线监测建模方法和仿真分析,从砂粒撞击信号的近场聚焦理论着手,建立了出砂信号DOA
本硕士论文主要研究了脉冲比例时滞微分系统的稳定性问题及其在神经网络上的应用.我们将分脉冲扰动和脉冲控制两种情况,讨论脉冲比例时滞微分系统的稳定性问题,建立相应的稳定性条件.作为应用,建立了脉冲比例时滞神经网络平衡点的全局稳定性条件.全文由四章构成:在第一章中,我们介绍了研究目的与意义,以及相关的研究状态.第二章讨论了持续脉冲扰动下,一类具比例时滞和变系数的微分系统的稳定性.首先,我们提出了一个新的