论文部分内容阅读
电子病历是医疗卫生信息化的重要研究领域。作为病人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,结构化的电子病历中还包含有大量的非结构化文本信息,例如以自然语言记录的临床表现等医疗记录。在医院内部或跨医院的区域范围内电子病历数据是海量的,如何在海量的电子病历数据资源中对其中的非结构化文本信息进行标注和分析,从而建立索引以供查询是一个亟待解决的问题。针对上述问题,本文在深入分析非结构化信息管理架构UIMA(Unstructured Information Management Architecture)规范和云计算编程模型MapReduce等相关技术基础上,提出了一种在云计算环境下基于UIMA对海量电子病历中的非结构化文本信息进行分析并建立索引的解决方案,设计并实现了相应的原型系统。与传统的文本分析系统相比,本文工作具有以下特点:1)将UIMA框架与云计算编程模型MapReduce相结合,提出了一种在云计算环境下基于UIMA对海量电子病历中的非结构化文本信息进行分析并建立索引的解决方案。该方案既利用了基于MapReduce的云计算环境的并行处理能力,又保持了基于UIMA规范的系统架构的开放性,可根据不同的分析需求开发部署不同的分析引擎。2)基于上述解决方案的原型系统提供对基于跨机构文档共享规范XDS(Cross-Enterprise Document Sharing)的电子病历数据中心的接口,并可根据云计算平台Hadoop的输入要求对电子病历中的非结构化文本信息进行预处理;原型系统对这些非结构化文本信息的分析和索引建立实现并行处理。3)开发实现了一个基于UIMA规范的中文分析引擎。该引擎以开源的中文分词软件IKAnalyzer为基础,结合外部的受控医学词汇CMV(Controlled Medical Vocabulary)服务,可标注分析结构化电子病历中用自然语言记录的非结构化中文文本信息。实验数据和原型系统的应用情况表明,该系统是可行及有效的。