【摘 要】
:
高质量的医学本体,可以打破不同医学文本数据之间的藩篱,使得医学数据能以统一的标准形式被各类信息处理方法充分利用,进而形成一套有效的医学知识表示体系,从而产生有价值的临床应用。相较于西方发达国家,尤其是英语国家,国内的生物医学本体无论从规模、数量还是内容上都处于相对滞后的水平,因此我们急需发展出一套具有中国特色的中文医学本体构建策略与技术路径,来实现中文信息处理技术与中文临床生物医学数据间的有效融合
论文部分内容阅读
高质量的医学本体,可以打破不同医学文本数据之间的藩篱,使得医学数据能以统一的标准形式被各类信息处理方法充分利用,进而形成一套有效的医学知识表示体系,从而产生有价值的临床应用。相较于西方发达国家,尤其是英语国家,国内的生物医学本体无论从规模、数量还是内容上都处于相对滞后的水平,因此我们急需发展出一套具有中国特色的中文医学本体构建策略与技术路径,来实现中文信息处理技术与中文临床生物医学数据间的有效融合。在我们的调研工作之中,我们会系统性调研并分析整理出国际上已有生物医学本体的构建策略与技术路径,再依据中文语言特性、国内临床现状及中文临床生物医学数据的特点提出一套自己的具有创新性的中文医学本体构建策略,其包括问题定义、术语富集、关系属性提取等七个关键步骤。以此为基础,我们将中文生物医学本体重构定义为三个不同层次的问题,即:中文生物医学本体关注问题的重构、内容的重构及结构的重构。内容的重构是医学本体构建的基础,因此本论文以生物医学本体内容的重构作为研究重心。我们首先尝试了面向内容重构中文生物医学实体挖掘。此外,大部分本体都是表型概念,缺乏表型属性,因此我们提出了一种通过表型属性的定义,实现临床表型信息的精细表征,即实现疾病的细粒度知识表征图谱。属性作为本体内容的进一步丰富和扩充,为本体在实际场景中的应用提供了更细粒度的信息表示策略,因此我们提出一种利用本体属性的细粒度语义信息模型PhenoSSU(表型的语义结构单元),可为本体对疾病知识的描述提供更为丰富的表达能力,为临床诊断提供依据。。在中文生物医学实体挖掘的工作之中,我们首先构建了基于深度学习模型的有监督生物医学实体挖掘方法,该方法以Bert预训练语言模型为核心结合Bi-LSTM神经网络,实现生物医学实体的挖掘。然而,有监督方法存在依赖人工标注质量和上下文多样性方面的问题。因此,我们又基于n-gram统计语言模型以及句法分析模型实现了基于无监督方法的中文生物医学实体挖掘。最后,为了更近一步的提高实体挖掘的收录范围,将罕见词汇、不规范词汇也尽可能进行挖掘,我们提出利用双语映射方法引入高质量英文生物医学本体辅助中文生物医学本体建设的思路,并以UMLS术语集、SimAlign双语词对齐工具以及MetaMap术语标注工具为基础,完成了基于双语资源的中文生物医学实体挖掘。最终采用多方法有机组合的策略,在海量真实世界中文医学大数据语料的加持之下,完成了中文生物医学实体挖掘。为了评测基于多方法融合策略的实体挖掘成果,我们将挖掘后的扩展词表与现有最全面、权威的中文术语集合进行对比,来测试重构所得中文生物医学实体的表达能力是否能得到显著提高。相比已有术语集合,挖掘所得的生物医学术语扩展词表,对真实世界医学信息的描述能力得到明显提升,从原来的58.2%上升到80.2%,提高了37.8%。在构建细粒度本体属性语义模型PhenoSSU工作中,我们旨在用一系列属性和值来获取表型描述背后的完整语义信息。选取维基百科中193个传染病临床指南作为研究语料,基于表型概念和属性值的共现性,将SNOMED-CT中的12个属性引入到PhenoSSU模型中。通过分析PhenoSSU实例是否能够捕获对应表型描述背后的完整语义来评估PhenoSSU模型的表达能力。为了自动构建细粒度表型知识图,提出了一种融合MetaMap标注工具以及机器学习属性识别算法的混合策略。最后,用BRAT标注工具手工构建了 193种传染病的细粒度表型知识图。共形成4020个PhenoSSU语义单元,其中3757个(89.5%)能够很好地捕获临床指南中列出的相应表型描述的完整语义。相比之下,其他信息模型,如CEM和HL7-FHIR模型,分别只能捕获48.4%(2034/4020)和21.8%(914/4020)的完整语义信息。混合策略在表型概念识别子任务上的F1得分为0.732,在属性值预测子任务上的加权平均准确率为0.776。因此,PhenoSSU是一个有效的进行临床指南知识表征的语义信息模型。
其他文献
第一部分 中国肌萎缩侧索硬化患者DNAJC7基因突变的研究[研究目的]:DNAJC7基因是2020年新发现的肌萎缩侧索硬化(ALS)的致病基因,本研究旨在探讨DNAJC7基因在中国ALS患者中的突变率及临床特点,优化中国ALS患者突变基因筛查的决策。[研究方法]:入组了 2017.8-2019.7就诊于北京协和医院神经科诊断为肯定ALS,拟诊ALS和实验室支持的ALS患者326例,其中散发ALS患
研究背景:胶质瘤是最常见的中枢神经系统原发恶性肿瘤,世界卫生组织(World Health Organization,WHO)分级、异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH)突变情况、端粒酶逆转录酶(telomerase reverse transcriptase,TERT)启动子突变情况、O6-甲基鸟嘌呤-DNA 甲基转移酶(O6-methylguanine-DN
第一部分左束支区域起搏在慢性心力衰竭合并左束支传导阻滞患者中的临床应用研究目的左束支区域起搏是心脏起搏领域的一项新技术,本研究旨在探讨应用左束支区域起搏治疗慢性心力衰竭合并左束支传导阻滞患者的安全性与有效性。研究方法研究入选14例慢性心力衰竭合并左束支传导阻滞患者,应用左束支区域起搏行心脏再同步化治疗。收集患者术前资料、手术资料和术后随访资料,通过心电图、超声心动图、起搏参数和临床症状等指标变化,
目的:弥漫性囊性肺疾病(diffuse cystic lung disease,DCLD)为一组肺部影像学表现为多发薄壁囊腔的疾病。这类疾病病因多样,包括肿瘤性疾病、遗传性疾病、淋巴增殖性疾病、感染性疾病等。其中DCLD相关遗传性疾病种类多,常累及不同的肺外系统,患者的临床表型常常各异,异质性高;另一方面,患者家庭成员可能未行DCLD相关筛查,或患者对家族史报告可能不完全。这些因素使得临床工作中对
目的自发性孤立性肠系膜上动脉夹层(SISMAD)是一种罕见的血管病,保守治疗和腔内治疗的选择仍存在较大争议。本研究比较了症状性SISMAD接受保守治疗和腔内治疗的远期疗效,为治疗策略的选择提供更多依据。方法本文回顾性地纳入了 2009年10月至2020年12月因SISMAD在北京协和医院住院治疗的65例患者。根据其临床症状,24例接受了保守治疗,41例接受了腔内治疗。本文总结分析并比较了两组的基线
目的1型糖尿病(Type 1 Diabetes Mellitus,T1DM)患者发生自身免疫性甲状腺病和甲状腺功能异常(Thyroid Dysfunction,TD)的风险增加。合并TD会影响患者的糖脂代谢、糖尿病并发症进展等,需要对T1DM患者选择合适的TD筛查和诊治策略。本研究旨在分析T1DM患者合并TD的流行病学和临床特征,并探究合并亚临床甲状腺功能减退对患者血脂、肾功能和尿蛋白相关指标的影
背景及目的胰腺癌是恶性程度极高、预后极差的肿瘤,五年生存率仅为9%。而胰腺癌患者容易对吉西他滨产生耐药,是预后差的主要原因之一。因此,就胰腺癌化疗耐药机制开展研究具有重要意义。GDF15是TGFβ超家族中的一员,既往相关的研究主要集中在胃癌、结直肠癌等多领域,但在胰腺癌中的作用尚不清楚,有关化疗耐药的研究也鲜与吉西他滨相关。本课题组前期工作发现吉西他滨诱导的胰腺癌PDTX模型中GDF15表达水平升
目的我国于2014年颁布《围手术期输血指南》,提倡采用限制性输血策略,以减少异体红细胞输注。本研究旨在比较限制性输血策略实施前后,围手术期异体红细胞输注情况的变化。方法本研究是一项基于人群横断面数据形成的纵向观察研究,数据来源于医院质量监测系统数据库,研究对象为2013年1月1日至2018年8月31日我国三级医院的手术患者。主要观察指标是围手术期异体红细胞输注。通过构建包含混合效应的Logisti
组织中浸润的免疫细胞在各种生理或病理状态中发挥着非常重要的作用。对组织中免疫细胞组分进行定量检测,对于机体正常生理或疾病的机制研究十分重要。传统的组织免疫细胞定量方法,主要通过对不同免疫细胞特异性表达的蛋白分子进行标记,从而实现对不同细胞类型进行数量检测。随着高通量转录组检测技术的快速发展,利用不同免疫细胞的转录组数据,已有多种基于计算的组织免疫细胞分析模型被开发,可用于从组织转录组数据中预测得到
研究背景肥厚型心肌病(hypertrophic cardiomyopathy,HCM)是一种最常见的遗传性心脏病,以不明原因的左心室肥厚(Left ventricular hypertrophy,LVH)为特征。HCM的患病率在1/500以上。既往研究认为HCM是单个基因的罕见变异以孟德尔遗传模式导致的疾病,大约半数患者中能够发现致病变异,绝大多数患者为8个编码肌小节蛋白的基因突变导致,包括MYH