论文部分内容阅读
随着国家战略的重视,医疗文本大量电子化,带来了丰富的原始数据。而面向医疗文本的实体抽取及概念标准化技术,作为知识抽取和利用的关键步骤,具有重要的研究意义。医疗实体的抽取主要依靠命名实体识别技术从医疗文本中识别不同类型的医疗概念实体,文本中直接抽取的实体往往表述不规范,很难被后续任务直接利用,因此需要根据实体的上下文语义,标准化为规范的医学概念术语,这一过程即概念标准化。医疗实体抽取与概念标准化结合密切、相互关联,本文基于这两个研究方向,共展开了以下三个方面的研究:(1)基于深度学习方法实现中英文医疗文本的实体抽取。实体抽取模型构建使用了长短时记忆神经网络(LSTM)、卷积神经网络(CNN)进行特征抽取,条件随机场(CRF)进行概率计算。对于文本信息的挖掘,引入了字符级别的表征学习,强化模型对医疗文本表述不规范、表达错误等情况的处理能力。本文主要构造了双向长短时记忆-条件随机场(Bi LSTM-CRF)、双向长短时记忆-字符级长短时记忆-条件随机场(Bi LSTM-LSTMs-CRF),双向长短时记忆-字符级卷积-条件随机场(Bi LSTM-CNNs-CRF)三种深度学习模型,结合不同的词嵌入构造方法进行对比分析。实验在I2B2 2010数据集和992份中文电子病历数据集上进行,分析了不同表征学习方法对模型识别效果的影响,其中,使用预训练词向量(glove)的Bi LSTMLSTMs-CRF模型在英文语料集上表现最优,Micro F1值可以达到84.70%;而Bi LSTM-CNNs-CRF模型在992份电子病历上表现最优,Micro F1值可达到89.13%。(2)基于深度学习方法构造医疗概念标准化模型Norm CG(Normalization CNN-GRU Model)。Norm CG通过CNN模型挖掘指称和候选的形态学特征,通过门控循环单元(GRU)抽取关联指称序列的语义特征。结合对这两个特征的综合分析,Norm CG可以给出指称与候选概念间的匹配概率,并根据匹配概率预测指称的标准化结果。Norm CG在NCBI数据集上正确率达到89.79%,超过Norm Co、Tagger One等众多机器学习模型,并通过实验分析说明了有效的特征抽取能提升神经网络整体效果。(3)综合基于规则的传统方法与深度学习算法构造概念标准化混合模型EMTUGAM(EM-Train UMLS GRU Attention Mechanism Model)。EM-TUGAM分步骤增量地匹配指称与候选,通过将基于规则匹配的方法和深度学习方法导向各自正确率更高的指称集,使模型融合两种方法的优势从而提升了标准化正确率。EMTUGAM在MCN数据集上的正确率分别超过基于规则的匹配方法以及深度学习方法,同时高于MCN的基准模型,达到77.9%。此外,本文在大规模预训练与注意力机制对深度学习模型的改进方面进行了相关研究。综上所述,本文对面向医疗文本的实体抽取及概念标准化技术进行了深入研究。在实体抽取方面,本文利用深度学习模型从多个角度学习文本表征,从而提升模型的识别效果。在概念标准化方面,本文研究了深度学习模型的设计与构造,包括形态学与语义特征抽取、大规模预训练模型的使用以及注意力机制的引入,同时本文构造了深度学习模型Norm CG和概念标准化混合模型EM-TUGAM,两者均取得了不错的实验效果,超过了数据集上的现有模型,并通过实验分析为之后的模型改进提供了方向。