基于中文电子病历文本的医学语义网络构建方法研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:lty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息化以及计算机硬件的发展,电子病历在我国得到了极大的普及,因此每天产生的电子病历数据爆发式增长,但是电子病历中的文本数据难以结构化从而得到二次利用,电子病历文本挖掘是现在很多学者的研究点,主要集中在电子病历命名实体识别和电子病历实体关系抽取这两个研究任务。英文领域的电子病历文本挖掘已经有了丰硕的成果,国内的研究还处于起步阶段。这是因为(1)缺乏规范统一的专业术语库,电子病历文本中的术语没有标准化,国外成熟的知识库无法对中文领域电子病历文本研究做直接指导;(2)语料匮乏,缺少公开的标注语料以及标注规范,并且电子病历文本具有高度专业性特点,普通人难以识别其中的实体及关系,严重限制了中文电子病历文本挖掘的研究。基于此,文本研究基于中文电子病历文本的命名实体识别和实体关系抽取的方法,从而构建基于中文电子病历文本的医学语义网络。主要工作包括以下几个方面:本文首先分析中文电子病历的数据结构特点和语言特点,提出基于元数据的数据清洗模型。针对电子病历中术语不统一问题,自行标注特定疾病的小部分语料,使用条件随机域(Conditional random fields,CRFs)模型并引入词典实现特定疾病中小语料库识别多术语任务。扩充电子病历命名实体识别标注语料,并为后续实体关系抽取和语义网络构建奠定基础。针对实体关系抽取任务,本文参照统一医学语言系统(Unified Medical Language System,UMLS)语义网络结构,明确本文的实体关系抽取类型。利用长短时记忆模型(Long-Short Term Memory,LSTM)在文本实体关系抽取任务上的优势,将Att_BiLSTM模型移植到医疗领域中来,抽取电子病历文本中句子级别实体与实体之间的功能上相关的语义关系,实验结果证明在TrCP(治疗导致了医疗问题)、TrIP(治疗改善了医疗问题)和TrAP(治疗施加于医疗问题)三种关系的识别上具有良好表现,F值分别达到0.862、0.861和0.862。引入领域知识库UMLS的工具MetaMap获取中文实体在UMLS中的概念形成IS-A关系,不仅与国际知识库建立关系促进中文医学文本挖掘研究发展,还进一步补充了国际知识库的中文语义网络部分。最后本文结合中文电子病历案例数据集,实现电子病历命名实体识别以及两类实体关系抽取的算法实现,构建特定疾病肾癌的医学语义网络,并通过工具Gephi实现语义网络可视化。该语义网络可以促进后续进一步研究如药物推荐、疾病预测、智能医疗问答系统等,具有重要意义。
其他文献
本文进一步研究了溶气对稳定喷射的雾化特征的影响。着重研究了不同溶气方法、不同被溶气体对溶气浓度及浓度梯度的影响;喷嘴喷孔形状和溶气量对喷雾质量、结构的影响.
由于人们在日常生产生活中对土壤的保护重视不够,特别是无度地利用和过度地开发,致使大量土壤资源受到污染和破坏,影响人类的生存安全。基于此,在分析土壤污染途径、主要危害
综观我国现有的专利联盟,几乎都与政府相关部门的支持有着不同程度的联系,本文从我国专利联盟的发展现状和需求入手,对政府在专利联盟的建设与发展过程中的角色和定位,以及政府如
山寨行为的源起"山寨"一词源于广东话,是指一种由民间IT力量发起的产业现象。"山寨"作为一个词语最早出现在香港,即"山寨厂"。香港的山寨厂,指的是那些原本在香港狮子山下小木屋里
<正>7月1日下午《,小康》采访团到达长沙,稍作休整后,便开始了为期一周的调研采访。湖南,众所周知是"渔米之乡",然而,最近几年却因环境污染,频繁被传农产品重金属超标,同时,
期刊
<正>文章是用语言写成的,要提高写作能力,就必须在语言的学习和使用上下一番功夫.语言是交流思想的工具,文章是交流思想的一种形式,只要写文章,就得使用语言这个重要的交际工
随着世界经济一体化和国际化步伐的加快,越来越多的中国企业走出国门到海外资本市场融资。海外融资存在巨大风险,如高资金成本风险、再融资风险、剩余利润外流风险、企业价值
英语教学中存在的"费时低效"的问题,是英语教师在英语教学工作中所面临的一个很实际的问题。要解决这一问题,就要解决好英语教师的专业发展问题,因为它是实现有效教学目标的
<正>从2000年10月6日《哈利·波特》(1-3)在中国首发到现在,《哈利·波特》来到中国已经7年。7年间,《哈利·波特》累计发行900余万册,销售额达2亿元,创造了近2500万元的利润