论文部分内容阅读
背景临床试验结果的统计学意义与临床意义并不统一,对试验结果的合理解读与准确评价,是保障循证医学证据可靠性的基础。研究结果的临床意义判断常需要结合试验外部信息或通过事后评价的方式进行,且多有主观性。尤其对于仅获得统计学显著但临床意义不充分的试验结果,目前尚缺乏被普遍认可的识别和评价方法。目的本研究将尝试提出具有针对性的新统计方法,用于识别试验结果仅获得统计显著但临床意义可能不足的风险,从理论角度构建相应的统计量、统计检验以及推断方法,以期为临床试验结果的客观解读提供新的方法学工具。方法本论文共包括六个部分的研究内容,按实证→方法→实证→方法逐级递进的方式进行。首先以实证研究提示的现象作为切入点(第一部分实证研究),基于荟萃流病分析,直接对比设计阶段目标效应值和结果中观察效应值的差异,揭示统计显著与临床显著间的差异;之后针对性开展方法学研究,基于统计检验备则假设对应分布,以拒绝域临界值和目标效应值作为参照,对假设检验的拒绝域做分区,进一步证明各分区的理论占比,根据试验观察效应值落所在的区域和相对位置,以判断该结果临床意义的充分程度,分别对单项(第二部分方法研究)和多项(第三部分方法研究)待评价试验提出相应的统计量和检验方法,通过随机模拟对提出的新方法做验证,假设出在实际试验中所有可能的预期效应值与组间差异真值间差异的不同场景,去评价所提出方法的稳健性;在建立新的统计方法后,再通过实证研究予以应用,先在荟萃流行病学分析的框架下,针对冠脉药物球囊的有效应评价中适宜性替代指标选择的问题(第四部分实证研究),应用本研究提出的新检验方法(共构建了 5种有针对性的检验)对试验结果的临床意义充分性做识别,在提示性结果的前提下进一步开展深入分析最终明确影响因素;之后再针对单项临床研究(第五部分实证研究),用新提出的相对距离占比统计量结合经典的交互作用检验,识别对暴露与结局间相关性有潜在修饰效应的指标,同样针对所发现的效应修饰变量的潜在影响开展进一步的分析与评价;在完成了上述研究内容后,最终就如何在试验设计阶段更准确的进行预期目标效应值估计给出解决方案(第六部分模拟研究),利用已完成试验的个体水平数据样本池,通过有控制的随机抽样过程模拟新的试验,并就预测结果准确性做评价,以目标试验已经获得且发表的实际结果作为比对金标准,以验证所提出的统计模拟方法具有可行性和可靠性。结果第一部分研究最终纳入了 12项来自ACC和ESC大会公布结果的试验,在获得了统计显著的试验中有28.6%的试验出现了观察效应值低于目标效应值的现象,提示有可能存在临床意义不充分的风险。第二部分研究主要基于备则假设对应分布,定义了拒绝域分区占比以及相对距离统计量两个新的指标,并明确了临床意义不充分的问题区域占比对应的理论概率等于预设把握度水平减50%,可按此构建检验的目标值,以常用的80%-99%把握度设置对应的目标值范围为37.5%-49.5%。在此基础上第三部分研究共构建了目标值、拟合优度、单向有序、Cochran-Amitage趋势检验和基于线性回归模型回归系数的共计五种检验方法,通过不同场景下的随机模拟显示,拟合优度和回归检验具有最高的检出概率,但由于其对应潜在的假阳性风险,所发现的提示性结果还应结合目标值检验做最终确认,以证实在待评价试验中确实有统计学显著但临床意义不充分的问题,同时还可以提示出在试验设计阶段潜在的效应值膨胀风险。在第四部分实证研究中,通过上述回归为基础新检验方法,发现在使用LLL作为主要指标的所有试验中,观察效应值均系统性的高于目标效应值(p=0.028),通过在标准化差异维度下对观察与目标效应值的一致性对比,最终发现药物球囊对比药物支架时,应该选择更适宜的MLD或%DS作为替代指标才能保证疗效估计的准确性。在第五部分研究中,也是基于新型统计量相对距离占比(观察效应值与目标效应距离和假设检验拒绝域临界值与目标效应值距离的比值)先识别出了潜在效应修饰现象,在有吸烟悖论存在的前提下,发现对非糖尿病的PCI患者过于耽搁的戒烟时点,与增加的全因死亡和再次血运重建复合终点事件发生风险相关(HR=2.65;95%CI:[1.92,3.65])。第六部分模拟研究则证实了,基于已完成试验个体水平数据组成的样本池,按照拟开展新试验目标研究对象的基线特征,从样本池中寻找基线完全匹配的对象,通过有放回抽样的方式构建出模拟试验人群,并通过样本池个体的已有结局信息对新试验可能结果做预测,10,000次的模拟中有7,266(72.7%)次结果落在试验真实结果95%CI范围内,此外共有7,813(78.1%)次模拟得到的单次95%CI覆盖了真实结果的点估计,结果预测准确性在可接受范围,样本池个体的重复使用程度未呈现出预测效应值大小的相关性,提示在试验设计阶段,可通过该方法为目标效应值假设提供更为精准的设定依据,进而为研究结果临床意义充分性的判断提供基础。结论基于备则假设分布构建的拒绝域分区占比和相对距离两新型统计量,包括以它们为基础进一步构建的五种统计检验方法,可以用于对研究结果在统计显著的前提下,潜在临床意义不充分的风险做初步识别,或提示确证性试验在设计阶段可能存在的效应值膨胀问题。本文所提出的新方法,可用于辅助临床试验结果的可靠性评估及研究方法学质量的评价。