论文部分内容阅读
随着医疗信息化以及计算机硬件的发展,电子病历在我国得到了极大的普及,因此每天产生的电子病历数据爆发式增长,但是电子病历中的文本数据难以结构化从而得到二次利用,电子病历文本挖掘是现在很多学者的研究点,主要集中在电子病历命名实体识别和电子病历实体关系抽取这两个研究任务。英文领域的电子病历文本挖掘已经有了丰硕的成果,国内的研究还处于起步阶段。这是因为(1)缺乏规范统一的专业术语库,电子病历文本中的术语没有标准化,国外成熟的知识库无法对中文领域电子病历文本研究做直接指导;(2)语料匮乏,缺少公开的标注语料以及标注规范,并且电子病历文本具有高度专业性特点,普通人难以识别其中的实体及关系,严重限制了中文电子病历文本挖掘的研究。基于此,文本研究基于中文电子病历文本的命名实体识别和实体关系抽取的方法,从而构建基于中文电子病历文本的医学语义网络。主要工作包括以下几个方面:本文首先分析中文电子病历的数据结构特点和语言特点,提出基于元数据的数据清洗模型。针对电子病历中术语不统一问题,自行标注特定疾病的小部分语料,使用条件随机域(Conditional random fields,CRFs)模型并引入词典实现特定疾病中小语料库识别多术语任务。扩充电子病历命名实体识别标注语料,并为后续实体关系抽取和语义网络构建奠定基础。针对实体关系抽取任务,本文参照统一医学语言系统(Unified Medical Language System,UMLS)语义网络结构,明确本文的实体关系抽取类型。利用长短时记忆模型(Long-Short Term Memory,LSTM)在文本实体关系抽取任务上的优势,将Att_BiLSTM模型移植到医疗领域中来,抽取电子病历文本中句子级别实体与实体之间的功能上相关的语义关系,实验结果证明在TrCP(治疗导致了医疗问题)、TrIP(治疗改善了医疗问题)和TrAP(治疗施加于医疗问题)三种关系的识别上具有良好表现,F值分别达到0.862、0.861和0.862。引入领域知识库UMLS的工具MetaMap获取中文实体在UMLS中的概念形成IS-A关系,不仅与国际知识库建立关系促进中文医学文本挖掘研究发展,还进一步补充了国际知识库的中文语义网络部分。最后本文结合中文电子病历案例数据集,实现电子病历命名实体识别以及两类实体关系抽取的算法实现,构建特定疾病肾癌的医学语义网络,并通过工具Gephi实现语义网络可视化。该语义网络可以促进后续进一步研究如药物推荐、疾病预测、智能医疗问答系统等,具有重要意义。