中文电子病历命名实体识别算法研究与系统实现

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:wangfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们对医学研究不断进行深入挖掘,于此同时,医院的就诊人数也在不断增加,产生了大批量的医疗信息。利用自然语言处理技术处理电子病历数据是医疗领域研究的重要趋势。对信息内容的抽取、对信息的检索以及建立问答系统等技术全都需要命名实体识别技术给予支持。因此,为了解决医学中病历文本中的命名实体识别的识别效率不高、性能不够优秀等问题,本文旨在研究设计一个性能更加优化的识别算法,并基于此算法开发实现一个能够识别病历文本中的疾病名称、临床症状、治疗手段等命名实体的信息系统。本文对命名实体识别的研究背景和发展概况进行了深入调研,并在此基础上对三种常用的命名实体识别方法进行研究学习,分析三种算法的优缺点。通过研究分析发现,基于规则的方法主要是通过专家建立各种规则,并基于此进行命名实体识别。基于规则的方法需要专业领域的专家根据文本特点定制规则,对参与人员的专业要求比较高,而且耗费人力和时间,同时可移植性和适应性方面都比较差。基于词典的方法主要通过词典与字词序列进行匹配识别,具有很高的识别准确率,但是对词典的质量有很高的要求,难以识别出词典中不存在的未登录词。条件随机场模型(Conditional Random Fields,CRFs)具有最大熵算法的独立性强的特点,又具有隐马尔科夫模型的识别性能高的特点,可以有效地避免出现最大熵模型中的标记偏置和隐马尔科夫模型识别复杂命名实体难度大的问题,具有良好的识别性能,但是它受限于训练集的规模和特征的选取。本文结合词典和条件随机场模型的特点,提出基于词典和条件随机场模型相结合的混合模型。一方面利用基于词典的方法对训练语料进行标记处理,并将得到的结果作为CRF模型的训练语料,这样旨在人工标注数据较少的情况下,仍然可以对CRF模型进行多足够的训练,另一方面是将词典以特征的方式引入到条件随机场的学习模型中。本文设计实现了四组实验,经过四组实验对比分析发现,在条件随机场模型中加入实体词典可以有效地提高模型的识别效率,改善命名实体识别系统的性能。同时实验证明了本文提出的混合模型具有良好的识别效率。另外,通过调查发现,目前学者对于电子病历命名实体识别学习研究还侧重在算法领域,专门用于识别电子病历实体的信息系统非常少,主要是一些软件包的形式,难以直接使用。基于这种情况,本文设计实现了一个界面友好的中文电子病历命名实体识别系统,系统使用Java语言设计实现。系统以本文提出的混合模型为核心算法进行命名实体识别。经过单元测试和集成测试发现,系统中的词典管理功能和命名实体识别功能都达到的预期要求,系统实现良好。
其他文献
目的对盐酸川芎嗪在冻干制备工艺中的稳定性进行考察,为保障含有该成分的其他冻干粉针剂产品的质量提供依据。方法采用HPLC法测定盐酸川芎嗪的量。色谱条件:流动相为甲醇-水(
目的 探讨和分析有机磷中毒致呼吸衰竭的临床护理体会。方法 选取我院收治的有机磷中毒致呼吸衰竭的患者28例,对其临床护理措施进行回顾性分析。结果 本组28例患者,有26例治
消毒供应中心是保障医院医疗质量和安全的重要部门,消毒供应中心的污染区负责对医院各科室使用后受到污染的器械进行回收、清理消毒的区域。是消毒供应中心里最为敏感的重要
随着我国城市的不断发展和工业的现代化进程的不断推进,建筑业作为我国国民经济的重要物质生产部门,与整个国家经济的不断发展和我国人民生活的逐渐改善是息息相关的。中国现
功能化和智能化是纤维发展的趋势.单一组分纤维难以满足日益发展的需求,而多组分纤维能够集中不同组分的特点,实现性能的集成与优化.通过非共价相互作用,高分子聚集而形成多
文章从中国和日本饮食文化的差异入手,就中国饮食观念、饮食礼仪、饮食烹调及选材、酒文化、饮食习惯等方面展开深入探究,以期达到促进中国饮食文化的良性发展和人民身体健康