面向中文电子病历的数量信息抽取方法研究与实现

来源 :广东外语外贸大学 | 被引量 : 2次 | 上传用户:hailongsky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗数字化进程的日益推进,医疗系统中电子病历的数据量呈现几何级增长。医学数量信息作为呈现患者病况的可量化数据,普遍以非结构化的方式广泛包含在电子病历中。医学信息表述多样且复杂,医学数量信息抽取相关研究比较缺失,高效且准确地将数量信息从非结构化电子病历中抽取出来,以供后续对病历数据的进一步分析与挖掘,辅助临床智能决策,成为亟待解决的一个问题。本课题对中文电子病历中的数量信息抽取方法进行了深入研究,论文的主要研究内容如下:1)本文对国内一家三甲医院烧伤科的1359份中文电子烧伤病历进行系统性人工标注,设计了针对医学数量信息的抽取方法,包括基于自构建字典的规则方法和基于数量信息语义角色的模式自动学习方法,此外搭建并实现了一系列典型的序列标注模型,对中文电子病历进行建模实验,在相同的标注医学数据集上进行综合横向对比,分析不同抽取方法间的效果差异,为目前中文领域中的医学数量信息抽取提供了实验数据一致的对比分析研究。2)本文提出了一种融合了外部特征的BiLSTM-CRF医学数量信息识别优化模型,利用人工整合的烧伤医学词典以最长匹配的方式获取字典特征,结合以数值为中心取得的位置特征作为模型的外部特征,探究了输入层拼接法和隐藏层拼接法两种不同的特征融合方式对于模型效果的影响。实验结果显示,融合了外部特征的模型较基线模型有较大的提升,且利用输入层拼接法进行外部特征融合的扩展模型在所有模型中表现最优,有效地提升了深度学习模型在医学数据规模普遍较小的情况下对医学数量信息特点的捕获能力。3)对于进一步的实体-数量关联,本文提出了一种基于特征工程的自动关联方法,通过对文本中句子级别的数量信息结构特征进行抽取,形成包含绝对位置等特征在内的四类结构特征,利用非参数异常值检测的方法获得基于统计的数值属性特征,最终通过相关性检验及特征消融的方法对特征集进行筛选,以随机森林作为分类器实现实体和数量之间的自动关联。通过实验验证,在本文提出的特征集基础上,所有测试的主流分类器正确率均高于87%,随机森林分类器获得了最高正确率(95.50%),证明了本文提出的实体-数量关系自动关联方法的高效性,解决了基于规则方法所导致的人工成本和低泛化性的问题。最后,本文将关联后的医学数量信息进行规范的语义表示,形成结构化的医学数量信息。
其他文献
目的通过建立大鼠COPD模型,探讨RELMβ在COPD大鼠肺组织中的表达及其与IL-8、IL-10及TNF-α的相关性。方法选取健康雄性大鼠70只,随机分为COPD模型组及对照组,每组35只;根据试验时间进一步分为2周、4周、8周、12周、16周、20周及24周7个亚组。采用HE染色观察肺组织病理变化;采用ELISA法收集血清及BLAF中IL-8、IL-10和TNF-α浓度数据;运用Western
萘系高效减水剂合成工艺中水解反应过程的控制对最终产品的减水性能影响很大。对萘系高效减水剂合成工艺中的水解过程进行了系统的研究,结果表明,最佳水解终了酸度为28%~30%;由于水
本文从协同学习、资源共享和个性化服务三个方面探讨网格在教育中的应用,并还论述了网格在其他领域中的应用,这些领域包括科学计算、企业信息处理、电子政务及虚拟现实。
独立学院的动画专业注重的是培养具有想象力、创造力与实践能力的动画应用型人才,实践教学是整个动画教学体系中的重要环节。传统的艺术设计类实践教学方式与动画专业的学习
“保护利用乡村传统文化,重塑乡村文化生态,发展农村特色文化产业”在《乡村振兴战略规划(2018—2022年)》被明确提出,随着乡村振兴战略的持续深入推进,以及农村社会内涵式发展的现实需求,发展农村特色文化产业已然成为新时代文化建设的新命题。与此同时,产业集群在新经济地理空间上不断形成新的农村聚落,为农村特色文化产业的研究提供了更为广阔的空间。在此背景下,本文从产业集群理论入手,选取农村特色文化产业
本文为建立运动马尿液和血液中咖啡因含量的气相色谱-质谱联用检测方法。比较了液液萃取、固相萃取、QuEChERS法样品前处理方法的优缺点,并从萃取溶剂、萃取pH值、萃取体积及次数等方面对液液萃取法进行了优化。比较了吲哚、氘代咖啡因、13C咖啡因等内标化合物。比较了全扫描模式和选择离子扫描模式,及丙酮、甲醇、正己烷三种进样溶剂对于电子轰击离子源咖啡因离子化的影响。比较了不同保存条件对于标准工作液(包括
继唐代道教大发展和女冠盛行之后,宋代道教发展日趋平民化,女道数量有所减少,参与活动也日益受限。但宋代女道在修行上却有所发展,一方面充实了道教修仪,另一方面发展了道教贵柔守雌的思想内涵。首先,本文探析了宋代女道的入道缘由、修行之法以及参与社会活动状况。其中具体包括孟皇后、杜贵妃等在内的后妃、宗室等贵族女道,以及何仙姑、曹三香等平民女道。其次,分析了宋代女道的日常修行生活以及与家庭、社会的关系。她们居
知识图谱是人工智能领域的一个研究方向,为机器阅读理解、智能问答系统和信息检索等多种智能应用提供重要的服务。知识图谱是由节点和边构成的网状结构,用来描述现实中的客观事实。其中,节点代表实体,节点与节点之间相连的边代表关系。虽然大部分的知识图谱库中已经包含了大量的数据,但仍有许多实体之间的隐含关系没有充分地挖掘出来。知识图谱中的数据缺失问题,会严重影响智能服务的效果。因此,需要研究针对知识图谱的数据补