论文部分内容阅读
在国内,经过几十年不断的使用和改进,电子病历功能日趋完善成熟。结构化和非结构化两种记录形式是电子病历医疗数据的主要存储格式,非结构化格式便于表达各种医疗概念及事件,至今是临床治疗过程的主要记录形式。而目前医院多个系统需要从电子病历文本病程中抽取各种相关的数据,为了解决这个问题本文针对医院电子病历病程设计一个能自动灵活抽取医学命名实体和实体关系的方案,该方案基于中文分词软件对电子病历病程进行分词、词性标注;然后采用模板和机器学习技术,其中规则用于有着显著语言学特征的文本信息,SVM用于个性化描述语言学特征不明显的文本信息。实现抽取患者症状、疾病史、用药史、检查项目、治疗手段等医学实体信息,还能抽取治疗、疾病、症状、检查、疾病诊断分类间相互关系信息的系统。实验分析发现,SVM比单独采用规则具有更好的抽取效果,而规则也为特征学习提供了很好的辅助作用。论文主要包括以下内容:1)为实现电子病历信息抽取,首先解决中文的分词问题。在确定需求和目标,分析比较现有工具后选定ICTCLAS作为分词工具。以GATE为基础,逐步实现我院批量病程的分词、句法分割、语法标记、词表收集、规则定义等。2)对电子病历文本中有显著语言学特征的数据,主要采用JAPE规则和收集医学词表的方法对其进行抽取研究。3)对电子病历中个性化描述、语言学特征不明显的信息,借助支持向量机在大规模电子病历数据上,通过上下文特征、词的语言符号特征、语义特征等的学习来进行识别研究。对于实体识别,使用实体本身和其周围的词汇语言特征。而关系抽取涉及两个实体各自的NLP特征以及这两个实体相结合的特征,每对实体的共现则通过标识符来实现。针对小规模训练集存在正例偏少、负例偏多的不平衡问题,使用SVM结合不均匀边缘的算法,正例使用大的边缘参数方法对文本分类效果有显著提高。4)采用面向对象的开发方法,三层结构B/S软件模型,运用Visual Studio 2013、SQL 2008等计算机软件开发技术设计实现电子病历信息抽取系统,并将之应用到医院的EMR环境中。试验结果表明该系统可满足日常医院对电子病历文本信息抽取的临床需求,为方便文本数据的查询和进一步深度应用提供了基础。