论文部分内容阅读
随着我国计划生育政策的变化,各医疗机构产科所提供的医疗服务与国民日益增长的需求之间的矛盾尤为突出。医疗信息化的推行使产科积累了海量的电子病历,形成了医疗大数据。利用产科电子病历进行智能诊断,有利于提高诊疗质量和效率,是缓解产科供需矛盾的重要途径。将真实电子病历应用于智能诊断,所面临的首要问题是如何对电子病历进行去隐私化、数据清洗及规范化,为智能诊断提供数据支撑。诊疗过程中,诊断结果包含正常诊断、病理诊断及并发症等多个诊断标记,智能诊断可作为电子病历多标记分类任务进行处理,而多标记分类的准确率是决定智能诊断是否可应用于临床并提高诊疗质量及效率的关键因素。如何结合电子病历特点并融合领域知识提升多标记分类性能是智能诊断需要重点关注的问题。基于此,本文对产科电子病历数据集的构建以及以此为数据支撑的多标记分类进行了研究,探讨融合不同层次知识对智能诊断性能的提升,主要研究成果如下:(1)对真实产科电子病历进行隐私化处理、数据清洗、诊断规范化,以及数值特征抽取和处理,构建了产科智能诊断研究的数据集。提出了一种自动生成电子病历文本模板(Text Template,TT)并与双向门限循环单元(Bi-direction Gate Recurrent Unit,BiGRU)相结合的TT-BiGRU模型,进行电子病历去隐私化研究,对中文电子病历隐私信息的识别准确率达96%以上,结合少量人工参与即可完成去隐私化工作;采用基于规则及语义相似度计算对电子病历数据集进行数据清洗、规范化,去除了真实电子病历中不同类型的错误及冗余,并降低了诊断标记的多样化,使标记规模从1,640个降至265个;基于规则抽取的数值指标以及标准化处理为智能诊断提供了更丰富的特征。经过这些处理,形成了包含24,339份产科电子病历的数据集。(2)提出了一种分层信息增强BERT(Hirarchy Information Enhanced BERT,HIE-BERT)多标记分类模型进行智能诊断。产科电子病历从形式上可分为文本及数值两类,文本按照对诊断的重要程度又可分为无差信息、基本信息、关键信息,数值亦是智能诊断的重要依据。分别采用差异化处理、正常输入及关键信息向量引入对文本中的分层信息进行处理,通过包含多头注意力机制的增强层对文本特征进行增强并与数值特征融合,形成了HIE-BERT多标记分类智能诊断模型。实验结果表明,针对电子病历数据集中的高频标记,相比于传统机器学习及其他深度学习模型,HIE-BERT模型中对文本特征和数值特征的分层引入与增强有效地提高了智能诊断准确率,相比于BERT模型,平均准确率提升了3.6%,达到了88.5%。(3)构建中文产科知识图谱(Chinese Obstetric Knowledge Graph,COKG),并将其融合到产科智能诊断中,提出了一种KG-HIE-BER多标记分类模型进行智能诊断。以类MeSH框架作为知识本体,对多来源医学文本采用半自动、自动抽取等方式获取知识,所构建的COKG涵盖产科疾病描述的实体10,674个,实体关系15,281个。通过多语义相似度综合建立电子病历与COKG的实体链接,利用关系链接得到疾病候选集,采用症状-疾病综合权重预测算法计算诊断标记权重,与HIE-BERT融合形成KG-HIE-BERT多标记分类智能诊断模型。实验结果表明,针对电子病历数据集中全部标记,KG-HIE-BER多标记分类模型使智能诊断平均准确率提升了3.2%,达到了88.9%。(4)开发了产科智能诊断系统“萱贝”,以KG-HIE-BERT和COKG为核心,提供了数据处理、病历质控、智能诊断、相似病历推荐及知识检索等功能,已应用于某妇幼保健院产科硕士研究生实习及规培生培训学习中,得到良好的反馈。