论文部分内容阅读
研究背景随着电子病历、电子健康档案等健康医疗大数据的不断积累,以“既有健康医疗数据”(Existing Health and Medical Data)为基础开展的真实世界研究(Real-World Study,RWS)逐渐普及。利用既有健康医疗大数据资源,通过数据治理获取符合要求的真实世界数据,制定基于健康医疗大数据的真实世界研究设计与分析策略,针对特定临床问题开展研究,已经成为循证医学证据研究中亟待解决的科学问题。由于健康医疗大数据具有多源、异构、标准不统一等特征,将其转化为符合循证医学研究要求的研究型数据极具挑战性。首先,通过规范化的数据库设计和数据治理过程,将原始数据创建为可用于医学研究的科学数据仓库,并与国际上如观察性医疗结果合作组织(Observational Medical Outcomes Partnership,OMOP)开发的通用数据模型(Common Data Model,CDM)进行对接,是解决此环节问题的有效途径之一。其次,利用既有健康医疗大数据开展真实世界研究,不仅需要有效地控制众多可观测混杂因素,还需要校正未知混杂、系统误差等偏倚。为此,需要选择合适的研究设计、针对不同环节控制偏倚的统计方法,通过优化组合,形成面向上述科学数据仓库的真实世界研究设计与分析策略。在众多研究设计中,新使用者(New User)队列设计在因果推断理论假设上可实现模拟目标结局试验的目的。在分析方法上,倾向性评分法(Propensity Score,PS)、阴性对照设计、阳性对照设计、P值校准和置信区间校准等方法均可用于真实世界研究各个分析环节中已观测和未观测混杂及其他偏倚的识别或控制。在此基础上,有望制定一套适用于大数据背景下真实世界研究的设计与统计分析策略。利用创建的科学数据仓库和真实世界研究设计与分析策略,可以针对特定领域的特定医学问题,开展真实世界研究。例如,在治疗2型糖尿病(Type 2 Diabetes Mellitus,T2DM)的药物中,胰岛素和二甲双胍的长期使用对远期心血管风险的影响仍存在争议,且对于肾脏、癌症及死亡结局风险的影响也缺乏高质量的循证医学证据。在联合用药方面,将二甲双胍始终保留在治疗方案中的联合疗法能否使糖尿病患者的各种结局获益也尚未被证实。另外,创建的科学数据仓库可进一步用于建立T2DM患者远期结局的风险预测模型筛选高危人群,从而有助于辅助优化治疗方案,降低T2DM远期结局风险。因此,以既有健康医疗大数据为基础,通过数据库设计和规范化的数据治理流程创建科学数据仓库,并制定用于真实世界研究的设计和统计分析策略,以T2DM药物治疗远期结局评价为应用案例开展研究,可为解决大数据背景下真实世界研究的科学问题提供参考案例和借鉴方案。研究目的1.以区域性糖尿病住院患者的健康医疗大数据为基础,制定科学数据仓库的设计方案和规范化的数据治理流程,将原始的健康医疗大数据创建为可与国际通用数据模型进行对接的糖尿病科学数据仓库。2.基于糖尿病科学数据仓库,通过选择并优化组合研究设计和统计分析各个环节中偏倚控制的统计方法,提出并创建一套适用于大数据背景下药物治疗结局评价的真实世界研究设计和统计分析策略。3.基于科学数据仓库和研究策略,以糖尿病为例探索治疗药物中仍有争议的二甲双胍和胰岛素对主要不良结局的潜在影响,获取二甲双胍联合用药是否可降低配伍药物基础风险的真实世界证据,回答二甲双胍是否需要始终保留在治疗方案中的问题。最后,建立糖尿病患者不良结局风险预测模型,为最佳治疗方案的制定提供决策工具。材料和方法研究数据来源于国家健康医疗大数据研究院-威海市区域性健康医疗大数据平台中三级甲等医院的医疗数据。将该区域平台内2009年12月1日-2021年12月31日间糖尿病全因住院患者确定为目标人群,共计45318人。通过该区域平台内的多次就诊记录获取随访结局,并关联全省电子病案首页及山东省疾病预防控制中心的慢病、癌症、死亡登记等数据库补充结局。结局追踪的截止日期为2022年4月1日。研究纳入了糖尿病患者的所有诊断、测量(含检验)和药物使用数据。纳入的基本信息包括:年龄、性别和出生日期;个人史和疾病史包括:吸烟状态、饮酒状态、睡眠质量、食欲状况、精神状态、体重变化以及糖尿病患病史等。通过本研究提出的设计框架和规范的数据治理过程(包括数据收集、数据治理、编码映射、概念映射、提取-转换-加载过程和质量控制)将这些数据转化为标准格式,创建糖尿病科学数据仓库。进一步按照通用数据模型的要求处理后,将数据映射为OMOP-CDM的标准概念(共4635种疾病、888种药物、71项测量),并根据OMOP-CDM的数据库规范,创建糖尿病OMOP-CDM数据仓库。在研究设计上,选择适用于真实世界研究的新使用者队列设计(New User Cohort Design)。根据研究目的和纳入排除标准,共计15650名接受药物治疗的2型糖尿病住院患者纳入分析总队列。按照具体研究内容创建特定药物/方案的新使用者队列,并在每项分析中为目标暴露(X1)、对照暴露(X0)和结局(Y)分别创建三个独立队列。本研究的降糖药物共分为①二甲双胍,②α-糖苷酶抑制剂(AGI),③胰岛素促泌剂(磺脲类+格列奈类)和④胰岛素等四大类。按照具体研究内容创建特定药物治疗/方案的新使用者队列。主要的分析和对比队列共分为三组:①二甲双胍使用者队列与非二甲双胍使用者队列,②胰岛素使用者队列与非胰岛素使用者队列,③二甲双胍联合用药者队列与非二甲双胍联合用药者队列。然后,在每个大组内根据具体药物种类进一步定义亚队列用于亚组分析。每个治疗组的暴露标准为相应治疗药物/方案的持续记录时间达半年以上(>180天用药期)。研究的目标结局共9个,包括:全因死亡、心血管疾病(Cardiovascular Diseases,CVD)死亡、癌症死亡、慢性肾脏病(Chronic Kidney Disease,CKD)、癌症、心肌梗死、心力衰竭、脑卒中以及4点主要不良心血管事件(4-Point MajorAdverse Cardiovascular Events,4P-MACE)。在研究内容上,围绕特征描述、群体水平因果效应估计和个体水平风险预测进行开展。在特征描述中,从队列特征描述、暴露特征描述、随访和结局特征描述等三个方面对队列人群进行描述性分析。进而,通过治疗路径分析探索糖尿病患者临床药物治疗现状。在糖尿病药物治疗结局评价的群体水平因果效应估计上,提出可用于真实世界研究的统计分析策略。其步骤为:①队列与协变量配置,即根据研究目的组合所创建的研究队列(X1、X0、Y)并配置用于分析的大数据协变量集;②执行大规模L1正则化倾向性评分,通过PS匹配或加权实现拟随机化过程;③通过对比组间的可比性、重叠-偏好得分分布和平衡诊断等方式对拟随机化效果进行诊断;④选择统计模型进行平均处理效应估计,以基于1:N匹配的Cox 比例风险回归模型和Fine-Gray竞争风险模型作为主分析,以单因素和PS加权的Cox回归作为敏感性分析;⑤创建150个阴性对照(理论相对风险RR=1)结局,进而根据阴性对照结局合成阳性对照结局(理论RR=1,1.25,1.5,2,4),然后使用阴性对照和阳性对照结局诊断剩余混杂和其他偏倚;⑥P值和置信区间校准,首先基于阴性对照结局拟合P值的零分布,对P值进行经验的校准(P值校准);同时,以阴性对照和阳性对照结局共同拟合系统误差模型,对点估计值和置信区间进行校准(置信区间校准);以消除未观测的混杂和系统误差造成的偏倚,获得群体平均因果效应。在个体水平风险预测上,以数据仓库为基础,选择正则化Cox方法作为个体水平预测方法,以不同数据域为基础建立糖尿病患者远期不良结局风险预测模型并与先前已发表的相关模型进行比较。模型的验证则是通过将样本人群分为训练集和验证集进行,并同时采用了五折交叉验证。通过模型验证、阈值评价、判别能力、校准曲线、决策曲线等方式依次进行评价,最后绘制预测模型列线图作为临床应用工具。研究结果糖尿病用药队列的最长随访时间为15年,中位随访时间为5.6年。在整个观察期内,胰岛素的使用者占比最多,约占全部人群的82%,其次为二甲双胍(70%),AGI(47%),磺脲类(32%)以及格列奈类(25%)等药物。治疗路径分析表明,糖尿病的临床治疗方案个性化程度高,存在胰岛素使用占比偏高、二甲双胍联合用药方案使用相对不足的现象。在用药方案的群体水平效应估计中,大规模正则化倾向性评分实现了各对比组之间所有特征均衡可比,控制了病情等因素的差异,达到了拟随机化的目的。使用阴性对照和合成阳性对照的方式对未知的偏倚和混杂实现了理想的校准。三个比较组的最终分析结果分别为:(1)二甲双胍使用的远期影响:与非二甲双胍使用者相比,二甲双胍使用者中6大结局的风险较低。校准后的全因死亡的风险为其他药物使用者的0.44倍(95%CI:0.30-0.59,P<0.001),CVD 死亡为 0.53 倍(95%CI:0.36-0.72,P<0.001),癌症死亡为0.43倍(95%CI:0.28-0.59,P<0.001),CKD为0.50倍(95%CI:0.33-0.68,P<0.001),癌症为 0.68 倍(95%CI:0.49-0.87,P<0.001),心肌梗死为 0.72 倍(95%CI:0.51-0.94,P<0.05)。亚组分析中,二甲双胍与其他各类药物相比均会降低上述几种结局的风险。(2)胰岛素使用的远期影响:与非胰岛素使用者相比,胰岛素使用者校准之后的全因死亡的风险为1.45倍(95%CI:1.07-2.09,P<0.05),癌症死亡为1.68倍(95%CI:1.11-2.72,P<0.05),CKD 的风险为 1.65 倍(95%CI:1.05-2.77,P<0.05),癌症为1.87倍(95%CI:1.34-2.81,P<0.001),但是对心血管结局的影响没有统计学意义。亚组分析中,胰岛素与其他各类药物相比均会增加上述几种结局的风险。(3)二甲双胍联合用药的远期影响:任何降糖药物与二甲双胍联合使用时,与未联用的情况相比,各个不良结局的发生风险均较低。二甲双胍联合用药者发生全因死亡的风险为 0.37 倍(95%CI:0.25-0.50,P<0.001),CVD 死亡为 0.49 倍(95%CI:0.33-0.67,P<0.001),癌症死亡为0.31倍(95%CI:0.19-0.45,P<0.001),CKD为0.46倍(95%CI:0.30-0.63,P<0.001),癌症为 0.73倍(95%CI:0.54-0.93,P<0.05),4P-MACE为 0.79 倍(95%CI:0.61-0.98,P<0.05),心肌梗死为 0.65 倍(95%CI:0.46-0.86,P<0.005),心力衰竭为0.78倍(95%CI:0.59-0.97,P<0.05)。亚组分析中,任何一类降糖药物的使用者在联用二甲双胍后均可降低其基础风险,其中胰岛素联用二甲双胍的效果最为明显。在糖尿病患者远期结局风险预测中,从全部数据域中筛选并创建的的预测模型效果最佳。9个结局涉及的预测因子总数为178个,其中胰岛素被筛选为全因死亡、癌症死亡和CVD死亡的预测因子。在验证集中,最优模型对9个结局预测的受试者工作特征曲线下面积(Area Underthe Curve,AUC)分别为:全因死亡 0.83(0.81-0.85)、CVD死亡 0.84(0.81-0.86)、癌症死亡 0.82(0.80-0.85)、CKD 0.88(0.86-0.91)、癌症 0.63(0.61-0.66)、4P-MACE 0.73(0.71-0.74)、心肌梗死 0.72(0.69-0.76)、心力衰竭 0.78(0.76-0.80)和脑卒中0.72(0.70-0.73)。对于C-statistic以及其他评价指标,训练集、验证集和交叉验证中均达到了理想效果。研究结论1.本研究以区域性糖尿病患者的健康医疗大数据为基础,设计了科学数据仓库及其创建流程。通过标准化的数据治理过程,将原始健康医疗大数据创建为科学数据仓库。最后将其与国际上的OMOP-CDM对接,建立了糖尿病OMOP-CDM数据仓库。2.本研究提出并制定了“①队列与协变量配置、②拟随机化过程、③拟随机化诊断、④平均因果效应估计、⑤偏倚诊断、⑥估计结果校准”等六个步骤的分析策略。该策略通过优化组合统计分析各个环节中偏倚控制的统计方法,形成了一套完整的研究流程,结合新使用者队列设计,可用于大数据背景下真实世界研究的群体水平平均因果效应估计。3.基于科学数据仓库和研究设计与策略,以糖尿病为例,评价了主要降糖药物治疗对远期结局的潜在影响。证明了二甲双胍的长期使用可以降低多个结局的潜在风险而胰岛素的长期使用则会增加全因死亡、癌症死亡、CKD及癌症等风险。发现了在任何降糖药物的治疗背景下联用二甲双胍,均会降低该药物(如胰岛素)对各个目标结局的基础风险,为二甲双胍始终保留在治疗方案中提供了证据。4.基于糖尿病科学数据仓库建立的预测模型并实现了理想的预测效果,证实了科学数据仓库在远期结局预测中的应用价值,为识别高危个体和指导最佳治疗方案的选择供了决策工具。综合而言,本研究通过提出的科学数据仓库设计及分析策略,形成了一套以健康医疗大数据为基础的真实世界研究方案。结合糖尿病药物治疗远期结局评价案例分析的研究内容和结果,为大数据背景下的真实世界研究提供了一个从原始数据治理到循证医学证据产生的完整参考案例。创新点1.本研究基于健康医疗大数据提出了“科学数据仓库”设计及创建流程,通过对原始数据的规范化治理,建立了区域性糖尿病患者的科学数据仓库,实现了与国际常用通用数据模型的对接,为国内医学科学数据仓库创建提供了可行性证据和参考依据。2.本研究通过优化组合各个环节中偏倚控制的研究设计和统计分析方法,创建了一套包括“①队列与协变量配置、②拟随机化过程、③拟随机化诊断、④平均因果效应估计、⑤偏倚诊断、⑥估计结果校准”的真实世界研究设计和分析策略,并以糖尿病为例完成研究分析,为以后类似的真实世界研究提供了借鉴依据。3.应用分析表明了二甲双胍对糖尿病患者大多数临床结局的保护效应及胰岛素的不利效应;在任何治疗方案中始终保留二甲双胍的联合治疗会降低相应配伍药物的基础风险,为糖尿病药物治疗的潜在影响提供了真实世界证据。建立的糖尿病远期不良结局的风险预测模型,为识别高危个体和辅助药物治疗方案选择提供了决策工具。