基于语义匹配模型的中文医疗问答方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:jackydmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展和网络医疗咨询的逐步兴起,越来越多的用户通过在线服务平台进行医疗咨询和寻求帮助。目前这些平台在回答用户问题时,一般通过搜索引擎进行问题检索,这种方式主要依赖于关键词语信息匹配,同时受用户对医学专业词汇表述的影响,通常不能充分理解用户语义,难以获取准确的内容。为了解决传统在线医疗服务平台存在的这些问题,医疗问答系统通过医疗知识库来匹配用户描述的病情,直接给出相关解决方案。但由于目前医疗问答领域缺乏公开的大规模中文医疗知识库,而且问答主要借助于实体识别与谓词匹配的方式提取关系三元组,会导致错误传播,同时现有的问答语义匹配技术存在复杂度高等问题,难以准确高效地进行用户问题与医疗知识库的匹配。因此,本文通过中文医疗知识库的融合、改进的问答语义匹配模型以及实体链指等模块的研究,提出基于语义匹配的一种端到端的问答过程,来解决中文医疗问答中现有的问题。本文的主要研究内容包含以下几个方面:(1)基于实体对齐算法的医疗知识库融合。为了解决中文医疗领域缺乏大规模医疗知识库的问题,本文首先获取开源的医疗知识库(包括中文症状库和中文医学知识图谱)并进行了预处理,同时抽取了医疗垂直网站的数据。然后,提出了一种联合结构嵌入与属性语义聚合的表示学习方法,融合多源的医疗数据实体及其关系,并采用Neo4j数据库进行存储,从而构建了一个更大规模的中文医疗知识库CMed-KB,为后续的医疗问答提供数据支持,同时扩充了现有中文医疗知识库的实体关系数量和规模。最后,为了后续问答语义匹配模型的训练,本文从构建的CMed-KB中抽取实体类型与表述属性,构建了医疗实体映射词典。(2)基于Transformer改进的问答语义匹配模型。通过分析典型的LSTM系列的模型在语义匹配任务上复杂度高的问题,本文针对医疗问答任务需要较高的准确率和响应速度,提出了一种基于Transformer改进的中文医疗问答语义匹配模型。该模型利用多头注意力机制分别对两个文本进行特征编码,在根据自身上下文信息进行语义表示的基础上,包含更丰富的交互特征。在c Med QA2医疗数据集和ATEC2018数据集上分别进行实验,并与目前典型的几种匹配模型进行对比,验证本文改进的语义匹配模型具有更高的准确率、更低的复杂度。(3)基于语义匹配的中文医疗问答的研究。针对现有的医疗知识库问答存在实体识别错误而容易导致级联误差的问题,本文设计了一种基于CMed-KB的问句实体链指方法,并将语义匹配模型引入到医疗问答中,构建了一个端到端的中文医疗问答过程。该过程首先结合CMed-KB找到候选实体集,然后根据构建的二分类评分模型筛选出命名实体,进而在CMed-KB中找到候选答案相关信息,最后使用语义匹配模型对问句与候选答案信息进行的语义编码,根据语义匹配分数选出最佳答案。本文提出的中文医疗问答方法可以较好地解决实体识别级联误差以及现有问答匹配模型存在的问题,有效地提高了医疗问答的准确性。通过以上内容的研究,本文解决了医疗知识库融合过程中存在的难点,构建了更大规模的中文医疗知识库,并将改进的问答语义匹配模型引入到问答中,构建了一个端到端的中文医疗问答方法。采用构建的中文医疗问答数据集进行对比实验,结果表明,本文提出的问答方法具有较高的准确性。
其他文献
近年来,我国国内高校毕业学生人数在逐年增加,目前教育体制培养的人才难以满足目前社会企业的快速发展的多样化需求。企业在技术创新上也缺乏活力,也存在一定的资金压力,以政府为主导的产学研“双创”平台以此为契机步入历史舞台。为了解决产学研“双创”平台无法适应目前社会信息传播机制所造成的产学研信息流通慢、需求匹配难、项目合作周期短、产学研组织松散等问题,本课题引入微信生态理论,针对如何解决校、企、政三方各自
学位
<正>[设计说明]统编版选择性必修(上册)选取诸子百家经典作品,以期加深学生对中华文化之根的理解。《<论语>十二章》作为本单元的第一篇课文,从《学而》《八佾》《里仁》《雍也》《泰伯》《颜渊》选取章句。因《论语》的语录体特点,这些章句之间的内在联系较弱,因而教师在教学时普遍觉得很难对其进行整合。
期刊
物联网、大数据等信息技术的快速发展为我国企业数字化转型创造了良好的发展条件,数字化转型对企业可持续发展绩效产生了重要影响。本文基于2011—2020年沪深A股上市企业数据,利用Python技术构建企业数字化转型指标,采用企业环境绩效和财务绩效相结合的方式更为全面地衡量企业可持续发展绩效,从理论和实证层面探讨了数字化转型对企业可持续发展绩效的影响,得出以下研究结论:(1)数字化转型显著提高了企业的财
期刊
本文以2013—2020年沪深A股上市企业为研究样本,考察数字化转型对企业财务风险的影响,进一步引入政府治理效率,探究政府治理效率在数字化转型与财务风险关系中的调节作用。研究结果表明:数字化转型与企业财务风险显著负相关;政府治理效率与企业财务风险显著负相关;政府治理效率显著增强数字化转型与企业财务风险间的负相关程度。研究可为数字化转型、政府治理及企业财务风险管控提供有益借鉴。
期刊
分类促进不同地区制造业企业数字化转型是新发展阶段中国区域经济高质量发展的应有之义,也是区域协同发展战略的必然要求。构建制造业企业数字化转型指标体系,更加有效地反映微观企业不同维度的数字化转型能力;尝试从基础设施建设—数字技术应用—业务模式转型三个维度,对制造业企业数字化转型及其区域差异形成的机理进行理论阐释。在此基础上,对2007—2020年中国东、中、西部三大区域制造业企业数字化转型水平的区域差
期刊
蛋白质是生物体内的基本组成成分之一,它在细胞中通过和其它蛋白质发生相互作用,即蛋白质相互作用(Protein-Protein Interaction,PPI),承担生命体的各种生理功能。因此,PPI预测方法的研究对于了解细胞中的各种生物过程具有非常重要的意义。由于早期的生物学方法十分耗时耗力,具有较低性价比,目前采用计算学方法进行PPI预测已经成为主要研究内容。然而,大多数计算学模型都严重依赖蛋白
学位
近年来,大量企业基于数字化转型实现了弯道超车。选取2007—2021年A股上市公司数据,利用企业年报中数字关键词的词频来描述数字化转型程度,研究企业数字化转型程度对企业融资成本的影响。研究发现:企业数字化转型与融资成本显著负相关;检验延长时间窗口发现,在企业实施数字化转型后的一段时间内,数字化转型仍然降低了融资成本;根据异质性分析,数字化转型对非国有企业降低融资成本产生的效果更好,且东部地区企业深
期刊
城市河流是城市中的生态廊道,是一座城市健康发展不可或缺的重要组成部分。然而城市的快速发展对河流造成了强烈的冲击。在城市肆意蔓延的过程中人们无暇顾及河流生态、城水和谐等问题,唯一考虑的因素只有水利防洪。城市河流因此渠化,失去了自然形态与自动力过程,生态系统服务大打折扣。随着河流渠化的弊端逐渐显现,人们越来越重视河流生态环境,要求对“千河一面”的现象做出改变。城市河流的近自然化逐渐浮现在大众的视野中。
学位
信用预测是对用户数据进行建模,预测其信用等级或评分。机器学习的方便快捷,在节省人力物力的同时,为信用预测提供了有效的解决方案。由于实际生产生活中存在大量的无标记信用数据,采用半监督方法能够更加合理的利用这些数据,同时半监督深度学习因其强大的学习能力和批处理数据的能力,使其更适应于大规模的信用预测场景。本文以两个较大规模的公开信用数据集作为分析和研究对象,研究了目前较为流行的半监督深度学习方法在信用
学位
2020年新冠肺炎(Corona Virus Disease 2019,COVID-19)给全世界经济生活带来了深刻的影响,当前存在大量非结构化COVID-19文献文本资源,利用实体关系抽取技术构建COVID-19知识图谱,对强化COVID-19的认知至关重要。由于目前缺少COVID-19领域标注语料,难以利用现有技术获取文本中的相关知识。当前大多数实体关系抽取技术主要基于循环神经网络来对单句文本
学位