论文部分内容阅读
研究背景:
普通的Cox模型参数估计方法假定个体生存时间彼此独立,但这个假定在一些情形中却值得怀疑。例如以家庭为单位的遗传病流行病学研究;一名膀胱癌患者在治疗过程中经历多次缓解和复发。同一家庭内所有个体、同一个体多次复发的生存时间呈现出相似性,很可能存在相关。文献称这种非独立的生存数据为多元生存资料。当忽略子组内的相关性时,普通Cox模型常低估了协变量的效应。
越来越广泛用于多元生存资料分析的模型是Cox脆弱性模型,是在普通Cox模型中以与基线危险率相乘的方式引入脆弱性因子(Frailty)。脆弱性即指存在于个体之间的未知或不可测的随机效应。通常假定随机效应服从伽玛分布和对数正态分布,相应的模型被称为伽玛脆弱性模型和对数正态脆弱性模型。目前脆弱性模型主要的参数估计方法有极大似然估计的EM(Expectation-Maximization)算法,贝叶斯方法及MCMC(Markov Chain Monte Carlo)算法。但EM算法收敛慢,对初始值的选择敏感,贝叶斯估计方法计算相对复杂且需指定先验分布及初始值。处罚偏似然估计是EM算法、贝叶斯方法之外的另一种选择,是一种收缩估计方法,收敛快,能给出模型参数有效点估计和方差估计,软件实现容易。然而处罚偏似然估计和常见的伽玛脆弱性模型、对数正态脆弱性模型的结合相对较新,国外的研究多为理论探索和算法间模拟比较,少有对各种应用条件下模型参数估计效果进行评价,国内对于Cox脆弱性模型的理论及应用研究尚未见文献报道。
因此,本研究通过蒙特卡罗模拟实验和实例分析来探讨该估计方法下伽玛脆弱性模型和对数正态脆弱性模型的稳健性及医学应用。
研究目的:
1、通过模拟实验比较普通Cox模型与伽玛脆弱性模型、对数正态脆弱性对多元生存资料参数估计的稳健性;
2、通过模拟实验考察并比较不同应用条件下运用处罚偏似然估计方法的伽玛脆弱性模型和对数正态脆弱性模型参数估计的准确性和稳定性,以期为处罚偏似然估计下Cox脆弱性模型的推广应用提供指导;
3、分别用单结局普通Cox模型、伽玛脆弱性模型和对数正态脆弱性模型拟合实例,阐明Cox脆弱性模型在医学随访多元生存资料中的适用性。
材料与方法:
实例资料:本研究以中山大学附属第三医院86例肺癌患者的随访资料为实例资料。该86例患者为1999年6月至2002年11月中山大学附属第三医院收治的原发性非小细胞肺癌首次手术者,手术方式限为肺叶切除+系统性肺门纵隔淋巴结清扫术和全肺切除+系统性肺门纵隔淋巴结清扫术,随访终止日期为2007年4月19日,具备以上条件且随访资料完整者。其中仅局部复发无远处转移者9例,仅远处转移无局部复发者19例,复发加转移者25例。对上述资料运用单结局普通Cox模型、处罚偏似然估计下伽玛脆弱性模型、对数正态脆弱性模型进行分析,并对结果加以讨论。
蒙特卡罗模拟方法:利用S语言模拟出不同删失比例、不同样本含量、不同生存时间相关性、不同随机效应分布、单因素和多因素模型的样本数据,对数据分别运用普通Cox模型、处罚似然估计下伽玛脆弱性模型、对数正态脆弱性模型进行拟合,得到参数估计值的均值、标准差、相对误差均值和标准差。通过对比分析,考察处罚偏似然估计下脆弱性模型参数估计的稳健性。
生存时间相关系数的计算有两种方法,一是常见的相关分析方法,如Pearson 相关、Spearman秩相关、Kendllτ秩相关等。二是基于脆弱性模型随机效应方差估计值与相关系数的数量关系,依前者进行推算。
Cox脆弱性模型应用条件考察包括通过作Schoenfeld残差图检验比例风险假定;对连续型协变量,通过做鞅残差图判断是否满足对数线性条件;基于脆弱性模型通过Wald方法对随机效应的存在进行检验。
研究结果:
1、模拟实验:当生存数据存在相关性时,各种应用情况下普通Cox模型的参数估计偏误均较脆弱性模型大。在大多数模拟应用条件下Cox脆弱性模型参数估计精确性较好。随着删失率的降低、相关系数的减小、样本量的增加及组合方式的改变,处罚偏似然估计的Cox伽玛脆弱性模型和对数正态脆弱性模型回归系数估计越稳健,两模型间的差别较小。当相关系数小于0.5,样本量在40以上,随机效应分布为伽玛分布或对数正态分布时两个模型回归参数估计的结果是相对准确和稳定的。特别地,组内个体数较大时模型参数估计效率较高。伽玛模型和对数正态模型发生随机效应分布互相误指定时对模型的稳健性影响不大。随机效应估计方面,估计精确性不如回归系数,低删失率、大样本时参数估计较准确。伽玛模型在正确指定随机效应分布时随机效应参数估计效果比较好,对数正态模型在高删失、高相关时表现较差。随相关系数的增大,伽玛模型估计值相对误差逐渐减小,对数正态模型估计值相对误差逐渐增大。
2、实例分析:单因素分析中,Cox脆弱性模型筛选出7个有统计学意义(P<0.10)的可能预后因素,单结局Cox模型没有筛选出肿瘤位置分型。多因素分析中,单结局普通Cox模型、伽玛脆弱性模型和对数正态脆弱性模型均显示原发灶纵经和临床TNM分期为独立的预后因素,其中对数正态脆弱性模型拟合效果比伽玛脆弱性模型好,比单结局Cox模型的结果更稳健。对数正态模型多因素分析结果中测量了复发和转移之间的关联性(kendllτ=0.312,P=0.002)。
结论:
普通Cox模型对多元生存资料的参数估计是有偏的,应运用Cox脆弱性模型分析;处罚似然估计下伽玛脆弱性模型和对数正态脆弱性模型在大多数应用条件下均较稳健;将Cox脆弱性模型应用到医学随访多元资料的分析,能更多地利用信息,对参数的估计更稳定,同时给出相关性测量。