论文部分内容阅读
医疗领域的数字信息化在科技与大数据的发展中正在不断被推动进步着。它的运营模式愈发转向电子病历,并以电子病历作为重要的信息资源,结合先进技术进一步挖掘探索,使得我国医疗事业不断完善。这些医学病历记录了病人在就诊期间的详细记录,涵盖了丰富的医学知识,可以给病人或医生提供查询及决策支持,也给之后进一步的医学研究奠定了数据基础。但是经调研,约80%的医学病历是处于非结构化状态的,难以直接被利用而造成了大量医学资源浪费。为了解决这样的问题,本文就医学病历非结构化的特点,对其进行信息抽取方法的研究,主要分为以下三个方面:(1)运用自然语言处理(Natural Language Processing,NLP)技术,提出一种基于逻辑标注策略的实体与关系联合抽取的方法完成信息抽取任务。通过几种常用序列标注模型的对比结果,确定本次研究所使用的模型为基于逻辑标注策略的Bi-LSTM-CRF。在600份医学病历、41类标签的情况下得到的F1 score为76%。在完成实体与关系的联合抽取后,最终基本实现了医学病历文本知识从非结构化到具有逻辑推理结构化的转变。(2)运用Neo4j图数据库存储抽取的信息,采用图表示的方法构建以疾病为中心的医学知识图谱。对抽取到的结构化信息进行可视化,同时考虑后续怎样以医学知识检索推理的方式将构建的知识图谱应用于实际场景中。(3)疾病预测与健康推荐系统的模型设计。在完成非结构化医学病历信息抽取后,我们将其应用于实际应用场景来实现医学病历信息抽取的价值。这个系统针对新输入的非结构化病历文本,分为预处理、基于疾病为中心的知识图谱的搜索匹配、合理性评估三大模块,最终给出相应的疾病预测和健康推荐。为了评估本次医学病历信息抽取在疾病预测与健康推荐系统这样的实际应用场景中取得的效果,我们已经将该系统应用于福建省近1000个乡镇的基层诊所中并通过收集医生在使用过程中的反馈来评估系统疾病预测的能力。最终对比系统预测得到的疾病与专业医生校正的数据集中对应疾病的一致性,可以得出在常见疾病的预测上,系统的预测准确度几乎能达到90%以上,证明了该系统在一定程度上能够辅助医生进行疾病的推测。