医学疾病表型实体及其关系抽取方法研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户：show_me_the_money

【摘要】

：

【作者】

：

原旎

【出处】

：

北京交通大学

【发表日期】

：

2019年01期

【关键词】

：

命名实体识别关系抽取表型实体深度神经网络文本挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息和数字化技术的应用,医学领域形成了大量的数字化知识和数据,但截至目前,大部分的医学知识和数据仍以非结构化的文本为主要表达形式,如临床电子病历,中医古籍(如黄帝内经,伤寒杂病论,本草纲目等)和现代医学文献等。从这些大规模文本信息中提取结构化信息是进行深入医学分析和利用的前提,是目前医学数据挖掘的主要瓶颈之一。本文结合表型实体及其关系的抽取问题,分别对临床病历,中医古籍和PubMed题录文献进行人工规范化标注,构建信息抽取标准数据集,然后进行表型命名实体识别及不同实体间关系抽取方法的研究。主要研究工作包括以下三个方面:第一,首先构建10426个现病史症状表型实体识别标准数据集,并且分别应用条件随机场(CRF)和结构化支持向量机(SSVM)进行实体抽取,重点比较分析了传统特征、基于深度表示的字词特征学习方法(Word2Vec和Node2Vec)的性能差异。实验分析发现,基于传统特征的CRF方法的F1值为0.83,而基于Word2Vec词向量的CRF和SSVM方法F1值分别达到了 0.9798和0.9908;同时基于Node2Vec字向量的F1值分别达到0.8879和0.9413,词向量的F1值分别达到了 0.9752和0.9788。可见,基于深度表示学习的方法性能优于传统特征的命名实体识别算法,基本达到了实用程度(F1值>0.95),且SSVM在性能上优于CRF方法。同时,由于不需要进行分词处理,基于Node2Vec深度字特征表示的SSVM也达到了很好的性能。第二,以英文题录文献中的表型实体关系抽取为目标,构建了源自PubMed中包含4种关系的标准数据集(8991条样本记录),再分别基于词特征和句子特征,采用经典卷积神经网络(CNN)和多卷积核CNN(CNNs)进行关系抽取研究。实验发现,融合词特征和句子特征的CNN的F1值达到0.7494,而CNNs方法F1值为0.8039。相比纯基于词特征的CNN(F1值0.7031)分别提高了 4.63%和5.45%。第三,构建包含10种关系类型的古籍标准数据集(共81908条样本数据),再分别采用BiGRU算法结合Attention机制和BiLSTM算法进行关系抽取研究。实验结果发现,BiGRU+Attention算法的F1值达到0.9486,而BiLSTM算法在WF特征和WF+PF特征上的F1值分别为0.9017和0.9232。可见,BiGRU算法的性能要优于BiLSTM算法的性能。

其他文献

“课改”与物理模型及建模能力

文章分析了在高中物理教学中抓物理模型教学和培养学生建模能力的重要性 ,并结合教学实践对物理模型及其应用、建模能力的培养进行了分析探讨 ,从理论上和实践上对教学活动提

期刊

课程改革物理模型建模能力

一边学习一边成长

开办一家自己的绘本馆应该是很多年轻妈妈的心愿。不久前，一位朋友向记者询问，是否了解儿童绘本批发的途径，她计划在自己所在的城市开办一个儿童绘本馆。没过多久，她就告诉记者说

期刊

NGO农村发展项目干预下的乡村治理——以YNGO在G村、L村项目为例

＂乡村治理＂是近年来学术界讨论比较热的一个话题,学者们不但从学理的角度分析了乡村治理的应然状态,也通过实地调研提出了当前乡村治理中存在的一些问题。该文通过分析当前既有

期刊

乡村治理NGO农村发展项目干预

一四七团工会扎实开展《劳动合同法》宣传月活动

近日,笔者从农八师一四七团工会获悉,该团正在认真学习、宣传《劳动合同法》。据了解,《中华人民共和国劳动合同法》,经全国人大常委会审议通过后,该团就制定了学习宣传《劳

期刊

《劳动合同法》

JJF1255-2010《厚度表校准规范》的探讨

JJF1255-2010《厚度表校准规范》(以下简称“规范”)对各种类型厚度表的校准工作有着指导意义。笔者结合实际校准工作,对规范提出了几个问题,进行分析研究,并给出了解决方法

期刊

测量杆测量面JJF1255-2010《厚度表校准规范》平行度校准规范

高职院校武术课程的优化

高职是培养专业人才的摇篮，其课程建设的是否科学合理、全面都直接影响到了教学的最终效果。同样，武术课程是武术教学顺利开展的基础，它关系到教学的最终教学质量。而随着教育改

期刊

高职院校武术课程课程优化

一种反激式变压器的优化设计方法

变压器是开关电源的关键部件，其性能的好坏，直接影响到开关电源的整体效率、发热情况、成本及稳定性等。本文分析了变压器工作在连续电流模式（CCM）和断续电流模式（DCM）下的特点，提出

期刊

变压器开关电源反激式初级电感

山羊痘病例的病理学诊断及病毒鉴定

菏泽市某养羊场从散户购买青山羊50余只,购进后1周左右陆续发病,发病羊体温41～42℃,2周内死亡率超过60%,部分羊体表有痘疹样病变,疑似羊痘。对该病例进行了现场调查、尸体剖检

期刊

山羊痘菏泽P32基因病理学诊断分离鉴定

表观遗传学修饰与肿瘤微环境

肿瘤微环境（tumor microenvironment，TME）是肿瘤细胞赖以生存的复杂环境，由多种基质细胞、细胞外基质成分（extracellular matrix，ECM）以及浸润在其中的生物分子所构成。其中重要的细

期刊

肿瘤微环境启动子肿瘤细胞miRNA组蛋白去甲基化酶细胞外基质蛋白细胞外基质成分HIF信号通路甲基化ECM肿瘤组织TGF

从胡萝卜渣中提取膳食纤维的工艺研究

以胡萝卜渣为原料，用酸碱法提取膳食纤维的工艺条件。确定了碱浸浓度、沉淀半纤维素的最佳pH值与最佳乙醇用量。在此工艺条件下，膳食纤维的得率可达36．36％。

期刊

胡萝卜渣膳食纤维

医学疾病表型实体及其关系抽取方法研究

其他学术论文