基于多层学习的病历实体识别算法设计与实现

被引量 : 2次 | 上传用户:jiejie2717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息化的快速发展,医疗机构在临床诊断过程中产生了大量的原始病历数据。由于电子病历多为非结构化、叙述性文本,不能较好地存储、组织和管理病历中的临床信息,因此电子病历文本信息很难被充分利用。在医疗科研领域中,病历实体识别的准确性和鲁棒性,以及病历实体组织存储模型的标准化和共享化成为对电子病历文本信息抽取的重要步骤。智能的临床系统要求病历实体模型在描述实体本身的同时,还需要进一步描述实体间的语义关系。通过对电子病历文本进行病历实体识别,进一步语义关系的识别,可以完成电子病历的结构化,从而支持现代临床系统的需求。命名实体识别作为文本信息提取的一项基本研究任务,用于将文本中描述的领域信息以命名实体的形式识别出来,并将其使用预先定义的命名实体标记符号进行标注。本文将命名实体识别技术应用于电子病历文本,对命名实体进行了广义定义,将电子病历中的命名实体称为病历实体,设计并实现了基于多层学习的病历实体识别算法。本文首先分析了电子病历特点,定义了所需识别的病历实体,分析病历实体含义及实体间关系,设计了一种面向病历实体、描述和关系的临床病历本体模型。然后设计了基于多层学习的病历实体识别算法,该算法的各层为:基于CRF的病历实体识别算法,以字为分割单位对病历文本进行分割,标记训练文本,训练CRF识别模型,完成病历实体的初识别;基于决策树的病历实体识别算法,将病历实体识别任务转化为病历实体分类任务,使用决策树算法作为分类算法训练分类器,对初识别结果进行修正;基于先验规则的病历实体识别算法,分析病历实体的构成,定义复杂病历实体符合的先验规则集合,对前两层的识别结果进行整合。最后本文在基于多层学习的病历实体识别实验平台中对该算法进行测试,实验证明,该算法对病历实体进行识别时具有很高的识别准确率及召回率,符合医生的临床应用需求,并且该算法具有很好的鲁棒性。
其他文献
目的:痛风和高尿酸血症(Hyperuricemia,HUA)己成为威胁我国和世界人民健康的常见代谢性疾病,更是高血压、冠心病及胰岛素抵抗等代谢性疾病发生的危险因素,其治疗药物的研究也
当前,国际桥梁工程设计的主流方法已经完成了由容许应力法向基于可靠度理论的极限状态法的转变。我国铁路桥梁工程目前仍然采用容许应力法进行设计计算,而日本、欧洲、美国等
目前中国开办建筑学专业的高校有200多所,大量普通高校非重点建筑学专业,无论是在师资力量、教学硬件条件以及教学体系的成熟程度上,都与重点高校的建筑学专业存在差距。目前
多丽丝·莱辛(1919-2013)被誉为继弗吉尼亚·伍尔芙之后最伟大的英国女作家。作为莱辛的代表作,《金色笔记》自1962年出版以来就因其独特的文本结构和宏大的主题广受关注,成
当代青年学生普遍存在功利心强、过分自我、迷恋网络等问题,重新审视社会责任感的内涵和动力并进行有效的培育有着重要的现实意义。社会责任感来源于人的社会化需要、自我价
摘要:近年来城市轨道交通大量建设使得道岔区难以绕避振动敏感点,很多的道岔区需采用钢弹簧浮置板轨道结构。鉴于已投入使用的道岔钢弹簧浮置板轨道较少,且岔区轨道结构复杂,
中学校园规模扩大化促使中学校园改扩建项目的增多,对中学校园改扩建设计的研究不可或缺。中学校园改扩建可大致分为两类:在原有建设基地基础上的扩张和另辟新址建设新校区。
近年来,随着我国经济和社会发展水平的不断提升,人们对建筑物的要求不再局限于满足必要的生活和办公,对建筑的外观、造型以及与环境的适应性也提出了越来越高的要求。随着这种趋
企业的创新能力是产业创新能力乃至整个国家创新能力的基石。公司的创新活动为在国家建设中实施国家发展战略和加强创新在国家政策层面的引导提供动力。当前,知识产权在经济
通过对贴壁式悬挑脚手架的成功实践,总结出一套高层建筑施工中成熟的脚手架新技术、新工艺。该项施工工艺的应用,不仅可提高工程质量,而且可消除各种可能存在的安全隐患,取得了显