论文部分内容阅读
随着医疗信息化的快速发展,医疗机构在临床诊断过程中产生了大量的原始病历数据。由于电子病历多为非结构化、叙述性文本,不能较好地存储、组织和管理病历中的临床信息,因此电子病历文本信息很难被充分利用。在医疗科研领域中,病历实体识别的准确性和鲁棒性,以及病历实体组织存储模型的标准化和共享化成为对电子病历文本信息抽取的重要步骤。智能的临床系统要求病历实体模型在描述实体本身的同时,还需要进一步描述实体间的语义关系。通过对电子病历文本进行病历实体识别,进一步语义关系的识别,可以完成电子病历的结构化,从而支持现代临床系统的需求。命名实体识别作为文本信息提取的一项基本研究任务,用于将文本中描述的领域信息以命名实体的形式识别出来,并将其使用预先定义的命名实体标记符号进行标注。本文将命名实体识别技术应用于电子病历文本,对命名实体进行了广义定义,将电子病历中的命名实体称为病历实体,设计并实现了基于多层学习的病历实体识别算法。本文首先分析了电子病历特点,定义了所需识别的病历实体,分析病历实体含义及实体间关系,设计了一种面向病历实体、描述和关系的临床病历本体模型。然后设计了基于多层学习的病历实体识别算法,该算法的各层为:基于CRF的病历实体识别算法,以字为分割单位对病历文本进行分割,标记训练文本,训练CRF识别模型,完成病历实体的初识别;基于决策树的病历实体识别算法,将病历实体识别任务转化为病历实体分类任务,使用决策树算法作为分类算法训练分类器,对初识别结果进行修正;基于先验规则的病历实体识别算法,分析病历实体的构成,定义复杂病历实体符合的先验规则集合,对前两层的识别结果进行整合。最后本文在基于多层学习的病历实体识别实验平台中对该算法进行测试,实验证明,该算法对病历实体进行识别时具有很高的识别准确率及召回率,符合医生的临床应用需求,并且该算法具有很好的鲁棒性。