基于电子病历的急性期卒中临床试验队列识别方法研究

来源 :北京协和医学院 | 被引量 : 0次 | 上传用户:dextersky001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卒中是一种急性脑血管疾病,是世界上导致死亡和残疾的主要原因之一。临床试验对于促进卒中的预防、治疗、康复至关重要,是研究新型药物等干预措施不可或缺的过程。然而,卒中临床试验却面临着受试者招募效率较低和招募不足的问题,且已成为临床试验开展的主要障碍。如何快速有效地开展卒中临床试验的队列识别将是解决问题的关键因素。目前基于电子病历的队列识别研究为之提供了一种新的途径和方法,但是已有研究或侧重于临床试验入排标准的语义信息提取,或侧重于基于电子病历的表型分析,针对专病,尤其是卒中疾病临床试验的队列识别研究还尚为缺乏。因此,本研究以识别急性期卒中临床试验队列为应用场景,提出了一种端到端的系统性队列识别方法,应用深度学习技术,结合入排标准和电子病历数据进行卒中临床试验的队列识别。本研究的主要工作包括如下:本研究系统性地回顾了已有研究方法。在数据集层面,调研了目前开放可获取的临床试验入排标准数据集。在方法学层面,调研了基于电子病历的临床试验队列识别方法、入排标准语义信息提取及表示,以及基于电子病历的卒中表型分析方法,进而充分地分析了已有研究的优势和不足。针对急性期卒中临床试验队列识别应用场景的特点,即病情评估时限和纳入时间窗均较短,以及其中影像学诊断的重要地位。本研究将该队列识别问题建模为:通过拟合函数F(T)和G(R)使得从影像报告集R中识别出符合临床试验T的患者队列C,其中函数F(T)和G(R)分别表示从T中提取出可纳入的卒中类型以及在R中进行卒中表型分析。在此基础上,本研究提出了基于BERT的TextCNN模型ecBERT-TextCNN和imagingBERT-TextCNN,即分别针对临床试验入排标准领域和影像报告领域构建了专有语言模型ecBERT和imagingBERT,并应用TextCNN文本卷积神经网络,完成入排标准和电子病历中的卒中疾病分类,进而应用医疗领域内HL7 V3交互标准,实现队列查询及识别结果的表示和交互。此外,构建了 ecGlove-TextCNN、enBERT-TextCNN、imagingGlove-TextCNN、zhBERT-TextCNN 等多种基线模型进行性能比较。由此,本研究提出了一种系统性的队列识别方法,以分析该应用场景的内在特点为基础,构建了一种遵循理论基础并且符合应用场景实践的模型,实现了临床试验入排标准和电子病历数据之间端到端的交互方式。最终,本研究从ClinicalTrials.gov平台获取了 2742例卒中临床试验的入排标准数据,并以该平台的全部351337例临床试验数据作为语料,生成了入排标准领域的语言模型ecBERT。在电子病历数据集上,本研究涵盖了 14504份影像学报告、6671个病案首页中的出院诊断记录,并应用总计368255份影像报告作为训练语料,生成了语言模型imagingBERT。在模型评估上,本研究利用总体准确率、加权宏平均F1 Score等指标分别评估入排标准语义信息提取和卒中表型分析的准确性。实验结果表明,与基线模型相比,基于BERT的模型具有性能优势,ecBERT和imagingBERT-TextCNN模型在各自任务中取得了最佳性能,总体准确率分别为0.9175和0.9096,加权宏平均F1 Score分别为0.9087和0.8974。在进行案例研究时,分别构建了两个独立数据集,ExternalECDataset包含了 39例卒中临床试验,ExternalReportDataset包含了来源于机构H01和H02的400份影像报告。ecBERT模型在 ExternalECDataset 上的准确率为 0.8974,imagingBERT-TextCNN 模型在H01和H02上的准确率分别为0.8350和0.8700。综上,本研究针对卒中疾病领域的临床试验,构建了一种涵盖入排标准语义信息提取以及卒中表型分析的系统性方法,并充分利用了深度学习的技术优势以及医疗领域通用的交互标准,在测试数据集和外部数据集上均获得了较高性能。因此,本研究有利于提高卒中临床试验队列识别效率,并最终促进卒中疾病的研究。
其他文献
研究目的通过对我国部分地区普通女性常见阴道微生态失调、高危型别人乳头瘤病毒(High-risk Human Papillomavirus,HR-HPV)感染及阴道菌群构成情况的调查,探究自然人群中细菌性阴道病(Bacterial Vaginosis,BV)、外阴阴道假丝酵母菌病(Vulvovaginal Candidiasis,VVC)、滴虫性阴道炎(Trichomonal Vaginitis,T
新型冠状病毒肺炎(Coronavirus Disease 2019,COVID-19)是由新型冠状病毒(Severe Acute Respiratory Syndrome Coronavirus 2,SARS-CoV-2)引发的疾病。截止到2021年5月18日,全球新冠病毒感染者已有163,312,429人,其中3,386,825人死亡。大多数COVID-19患者出现发热、干咳、疲乏、嗅觉味觉丧失
背景:虽然N末端B型脑钠肽前体(NT-proBNP)通常被认为是心脏再同步治疗(CRT)预后的生物标志物,但它们之间的剂量反应关系仍然未知。我们的研究旨在描述基线NT-proBNP与CRT超反应(SR)或包括全因死亡和因心力衰竭再住院的复合终点之间的定量关系。方法:这是一项单中心,回顾性研究,从2009年至2018年连续纳入398例既往无室速/室颤、无不明原因晕厥病史的患者。使用多变量Logist
小耳畸形(microtia)是一种常见的先天性颌面部畸形,该病的临床特征一般为耳廓发育不全,耳廓重建术是治疗该病的整形外科方法。自体肋软骨雕刻法是目前治疗先天性小耳畸形的临床标准,而耳软骨组织工程和3D生物打印是有前景的治疗方案。目前,这些治疗方案的基本条件之一,(复合物)形态支架构造尚缺乏有效的耳软骨图像自动分割方法。为解决耳软骨图像精准分割的问题,本文提出了三部分工作,包括1)基于超短回波时间
乳腺癌是女性中最常见的恶性肿瘤,现在已成为全世界女性发病率最高的恶性肿瘤。目前在中国,乳腺癌的发病率也呈逐年上升的趋势。所以发现和挖掘乳腺癌诊断和预后评估的生物标志物具有重要意义。最近研究表明:参与基因组不稳定性(Genome Instability,GI)调控的microRNAs(MiRNAs)与乳腺癌发生发展和临床预后密切相关。本研究旨在鉴定作为乳腺癌诊断和预后评估的GI相关的miRNAs,探
研究目的了解我国家庭医生签约制度下上门服务(包括医疗服务和护理服务)模式的现状,在推行过程中面临的关键影响因素,并针对制约环节提出相应对策和建议,为实质性推进家庭医生签约服务提供政策导向和决策依据。研究内容一是家庭医生上门服务的需求与供给现状,;二是家庭医生开展上门服务的关键影响因素分析;三是家庭医生开展上门服务的影响因素的作用机制研究。研究方法通过文献研究法对梳理和归纳家庭家庭医生开展上门服务的
[目的]阜外医院正在进行的高敏心肌肌钙蛋白研究(高敏心肌肌钙蛋白Ⅰ浓度及变化诊断急性心肌梗死的中国人群临床应用研究)已经证实了高敏心肌肌钙蛋白I(hs-cTnI)0h/3h诊断流程在疑诊非ST段抬高型急性冠状动脉综合征(NSTE-ACS)患者中的可行性和准确性[1]。本文进一步探索了 hs-cTnI的基线值、1h值、3h值、1h变化值、3h变化值与疑诊NSTE-ACS患者是否进行血运重建之间的关系
背景:肝癌是当代医学界一项亟待解决的重大问题,以手术、移植、介入治疗以及放射治疗等多学科综合治疗为主,但有效率较低,复发率较高。肝癌异常的血管生成导致组织乏氧及高表达缺氧诱导因子-1α(Hypoxia-induced Factor-1,HIF-1 α)能增加肝癌肿瘤细胞的恶性程度、降低肿瘤治疗的有效率。如何改善肝癌组织乏氧,降低HIF-1α表达并提高肝癌抗血管生成治疗的有效率是亟待解决的问题。血红
研究目的:了解北京市危重孕产妇救治网络及运行现状,探寻存在的问题和不足,提出进一步完善北京市危重孕产妇救治网络建设的政策建议,为北京市完善危重孕产妇救治网络提供参考和依据。研究内容:一是系统梳理北京市危重孕产妇救治网络的政策支持情况;二是深入调研北京市危重孕产妇救治网络的组织架构;三是探讨总结北京市危重孕产妇救治网络的运行机制和保障机制;四是概括分析北京市危重孕产妇救治网络的运行效果;五是提出完善
目的本课题基于高通量测序技术和血液宏基因组分析,调查我国部分地区健康献血人群血液微生物组,分析健康献血人群血液中可能存在的新发病原体,再进一步通过实时荧光定量PCR技术(qPCR)和酶联免疫吸附试验(ELISA)评估病原体的核酸及抗体流行情况,旨在对我国采供血机构健康献血者血液中新发病原体感染风险做出初步评估。方法(1)高通量测序与血液宏基因组学分析 收集凉山彝族自治州(以下简称凉山)、文山壮族苗