中文电子病历深度表型表征智能标注系统的构建与应用

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:wensiuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子病历(Electronichealthrecord,EHR)是一种很有价值的资源,因为大多数临床信息(特别是表型信息)都记录在电子病历的自由文本中,但目前尚未得到充分开发。当前,深度表型表征(deepphenotyping)已在高保真地表示电子病历中的表型信息方面显示出其优势。深度表型表征电子病历的过程是一项复杂、繁琐的系统性工程,完全依赖纯人工的话会非常耗时耗力。智能标注工具在释放电子病历的全部潜力方面发挥着重要作用,因为其可以将自由文本中的表型信息转换为计算机可读的结构化形式。但是,大多数现有的文本标注工具(如BRAT、tagtog、TeamTat和Markup等)在实体识别及标准化、关系标注、自动标注及交互友好等方面存在各自的缺陷,并不完全适用于深度表型表征的标注任务,当前仍然缺乏适合电子病历深度表型表征的智能标注工具。为了释放电子病历的全部潜力,将文本的表型信息转换成计算机可读的形式,并且准确、有效地表达中文电子病历中的表型信息,本研究选择整合医学本体、语义信息模型、深度表型表征算法和人机交互等技术,构建一个带有标注算法且适合中文电子病历深度表型表征任务的智能标注系统。首先,本工作选择并优化了表型语义结构单元(semantic structured unit of phenotypes,PhenoSSU)这一细粒度语义信息模型作为知识表征模板,以高保真地表示表型信息,优化后的PhenoSSU对电子病历的表达力优于当前医学领域通用的CEMs、FHIR等模型(0.888 vs 0.734&0.738)。为了实现电子病历深度表型表征的自动化抽提,开发了一套基于知识的自动抽提算法,并引入了主动学习机制赋予算法进化能力。在表型-属性精确表达水平上,未训练的标注算法在测试集上的F1得分为0.678,适度训练后的F1得分为0.766。在知识表征模板和自动标注算法的基础上,开发了一个名为PIAT(PhenotypingIntelligent Annotation Tool),中文名称“行星智能标注系统”,的智能交互标注系统,实现对算法标注的可视化与人工校对。PIAT可以通过简单有效的交互界面、自动预标注功能和学习机制,提高基于电子病历深度表型表征的标注效率。特别地,本工作创建了一种名为“行星-卫星”的交互模式用来简单高效的标注表型及相关属性。标注者可以在基于Web的交互界面中校对标注算法的自动标注结果,并且专家校对过的金标注电子病历会被继续用于底层标注算法改进。这样,深度表型表征电子病历的标注过程将变得越来越容易。作为一个智能标注系统,PIAT不仅满足电子病历深度表型表征任务的所有需求,如支持手动标注、标准化表型和属性,自带的标注算法不仅能标注表型,还可以预测及标注相关属性,这是现有的标注工具无法做到的。同时,与现有其他文本标注工具相比,因为“行星-卫星”交互模式的设计,PIAT具有最友好的可视化效果和最便捷的交互模式。后续通过对244份肾乳头状细胞癌的病历标注,表明在友好的轻度预训练之后,PIAT就可以在相似病历的自动标注上取得令专家满意的表现,并为后续基于电子病历的传统统计分析及机器学习应用提供高质量的结构化数据。总之,本工作创建了一个强大的适用于中文电子病历深度表型表征的智能标注系统,作为一个能持续产出高质量结构化电子病历数据的标注工具,PIAT将在连接电子病历资源和基于电子病历的应用开发方面发挥重要作用。
其他文献
铁电材料作为步入信息时代后尖端科技中的关键性基础材料,广泛应用在移动通信、超声换能、航空航天等领域。目前,铁电材料研究中的关键问题包括,明晰决定铁电性的共性关键因素,准确预测相结构及其与性能关系,并最终实现高性能材料设计。然而,影响铁电材料结构和性能的物理因素非常复杂,化学成分、微观组织、晶相组成等多方面因素构成了一个复杂高维的搜索空间,传统的试错法实验研究以及第一性原理计算等计算模拟研究在铁电材
学位
CRISPR/Cas(Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR associated)系统是一种高效的基因编辑系统,也是现阶段应用最广泛的基因组编辑工具,但是由于在基因编辑过程中存在DNA双链断裂导致的基因编辑产物异质性以及染色体不稳定性等问题,研究人员将产生DNA单链断裂的Cas9切口酶与脱氨酶或者逆转录酶融
学位
电子病历中的表型描述大多为非结构化的自由文本,无法直接用于临床研究。电子病历的深度表型表征算法可以高保真地结构化电子病历中的表型信息,日益成为医学信息学界的研究焦点。我国拥有丰富的电子病历资源,然而由于中文医学本体不完善以及细粒度标注数据的缺失,发展中文电子病历深度表型表征算法面临着巨大挑战。在这种低资源条件下,探索如何利用有限的细粒度标注数据集开发出具有泛化能力的中文电子病历深度表型表征算法,具
学位
研究背景:恶性肿瘤是严重威胁人类健康的重大疾病之一,寻找有效的治疗方法是当前医药领域面临的巨大挑战。近十年来,免疫疗法已成为肿瘤医学研究领域的热点,它有效改变了目前肿瘤的临床治疗模式。与传统的放疗、化疗、手术切除等治疗方法不同,免疫疗法在消除原发性肿瘤的同时,还可抑制肿瘤的复发和转移。虽然越来越多的证据表明,以PD-L1/PD-1免疫检查点阻断治疗、CAR-T细胞治疗为代表的肿瘤免疫疗法在临床上取
学位
期刊
第一部分超声引导动态针尖定位法穿刺置管与桡动脉深度和直径的相关性分析目的:探讨超声引导下动态针尖追踪(dynamic needle tip positioning,DNTP)法首次穿刺置管成功率和操作时间与桡动脉直径和前壁深度的相关性及其分界值。方法:从机构数据库中提取2019年3月至2020年7月期间采用DNTP法行桡动脉穿刺置管的资料,包括患者的一般特征、桡动脉超声影像学特征和穿刺置管记录。进
学位
高通量测序技术的飞速发展为肿瘤生物学的研究提供了便利,同时各种计算模型的开发,使肿瘤高通量测序数据中有效信息的提取更加方便快捷。本论文将从以下两个工作阐述高通量测序数据和深度学习模型在肿瘤中的研究与应用。本论文第一个工作是对黑色素瘤的转录组和基因组进行分析,探究黑色素瘤肿瘤微环境特征与分子特征之间的关联。黑色素瘤是恶性皮肤癌中一种,具有很强的转移性。肿瘤微环境涉及到肿瘤组织中多种免疫细胞浸润情况,
学位
固有免疫系统是机体应对病原体入侵或外界刺激的第一道防线,也是机体防御体系的一把双刃剑。模式识别受体通过激活免疫信号通路促进抗病毒基因和炎症基因的表达,帮助机体清除感染或受损细胞。但是,过强的免疫应答会诱发免疫损伤,导致自身免疫性疾病。因此,在固有免疫系统中存在重要的调节因子既能促进机体抵御病原体感染,又可以协助机体维持免疫平衡。在免疫系统中,长链非编码RNA以多种方式调控免疫细胞的增殖和分化、以及
学位
谷胱甘肽(Glutathione,GSH)是由谷氨酸、半胱氨酸和甘氨酸组成的三肽,是细胞内重要的代谢调节物质。同时,在多种类型的肿瘤细胞中GSH水平显著升高,利用这一生物学特点,研究者可以设计GSH响应型药物递送系统,也可以通过降低肿瘤细胞内的GSH水平来辅助其他抗肿瘤疗法,如逆转肿瘤细胞化疗药物耐受、提高肿瘤细胞对放射治疗的敏感性以及联合光动力治疗进行肿瘤高效杀伤等。但与此同时,细胞内GSH不断
学位
第一部分无义介导的mRNA降解(nonsense mediated mRNA decay,NMD)是机体最重要的转录后水平调控基因表达的机制。NMD主要识别含有由可变剪接(Alternative Splicing,AS)或者突变导致的提前终止密码子(premature terminal codon,PTC)的mRNA并将其降解,从而阻止C端截短蛋白的生成。NMD也对体内约10-20%的正常mRNA
学位