论文部分内容阅读
电子病历包含了详细、全面、准确的患者个体健康信息。通过分析和挖掘电子病历,提取出相关的信息可以帮助构建临床决策支持系统和提供个性化健康信息服务。电子病历由于其独特的文本特点以及结构特点,使得在传统领域内的实体识别和实体抽取方法很难应用在电子病历上,所以这对自然语言处理在医疗领域的研究发展带来了很大的挑战。主要问题有电子病历的专业性,人工构建训练语料的难度非常大,且缺少统一的标注规范。为了克服这些问题,本文提出了一种基于半监督学习的中文电子病历实体识别和实体关系抽取方法。本文的研究内容主要围绕以下三个方面:(1)分析电子病历文本语言的特点以及电子病历本身结构上的特点,针对医疗领域数据标注规范的不统一以及评价方法的差异,基于现有的标注规范,构建语料库。(2)基于双向循环神经网络和条件随机场算法,利用少量标注数据以及大规模未标注数据,增加循环神经网络来进一步提取文本语言特征和结构特征,训练出更适用于中文电子病历的实体识别模型。之后结合传统的半监督学习方法,扩展数据并提高模型的识别能力。最后与目前流行的实体识别算法相比较,结果表明改进后的模型能够有效的在小规模标注语料情况下取得较好的识别效果。F值也有较为明显的提高。(3)在传统的实体关系抽取方法中,大多将实体关系抽取作为分类问题,只是将实体识别和实体关系抽取两个任务作为独立的任务来研究,忽略了实体识别任务与实体关系抽取任务之间的关联。通过改进实体关系的标注方法,并将实体识别和实体关系抽取作为联合任务共同训练。之后根据电子病历文本的结构特点,将文本的位置标签同样作为辅助信息输入给模型。实验证明,改进后的实体关系模型能够在少量训练集的条件下较好的完成识别任务。