论文部分内容阅读
研究背景回归分析中,非参数回归以其适用性强,对模型假定要求不严等优点,扩展了参数回归的应用范围,增强了模型的适应性。但非参数回归也有其局限性,当模型中的解释变量个数较多而样本含量并不是很大时,非参数回归拟合的效果并不尽如人意,容易引起方差的急剧增大。这种由于维度的增加而使方差急剧扩大的问题通常被称为“维度的孽根(curse of dimensionality) "。而且非参数回归多是建立在核估计和光滑样条基础上的,其解释性也是一个问题。为了解决这些问题,AALEN在上世纪80年代首先提出了可加模型(additive model),这种模型对多变量回归方程估计一个可加近似值。可加近似值有两个优点:(1)由于每一个个体的可加项是以单变量平滑估计的,因而“维度的孽根”可以避免;(2)个体项的估计解释了应变量是如何随着自变量的变化而变化的。这是一个非常灵活的模型,对该模型已有非常明确的估计。这一模型容易实行,但在实践中却容易被人忽视,可能因为这一模型是非参数模型,并且用于统计推断的一些方法还不完善。可加AALEN模型的强度公式为:λ(t)=Y(t)XT(t)β(t)可加AALEN模型为非参数模型,虽然非常灵活,但这一模型对数据中信息的发觉比较困难,因为有些变量的回归系数可能是常数。在一些情况下协变量的效应用乘法模型或可加模型单独来估计都不太好,这时需要把两者结合。2003年,Scheike&Zhang把光滑COX回归模型中的α(t,x)用Aalen可加函数XT(t)α代替,此模型被称为COX-AALEN模型,这一模型在相乘模型的基础上增加了可加结构,在较少弹性损害的情况下使估计和协变量基线水平效应的解释更加容易,并且对偏差和方差两者间进行了合理的折中,一个更实际的优势是分类协变量可以在其基线水平被处理。COX-AALEN模型是一种典型的相乘-可加危险模型(multiplicative-additive hazard models),相乘-可加危险模型是在可加模型的基础上发展起来的,这是更加灵活和有用的模型。它大大提高了资料信息的利用度,减少了混杂因素的影响。此模型可以说是可加模型与COX回归模型结合的产物,由于考虑了协变量的作用方式及时依协变量效应,比COX回归模型更加灵活,利用信息也更加充分。它不像广义可加模型只适用于计数资料,此模型适用于多种形式的资料,并且它不需要分阶段及满足MARKOV假定。相乘-可加危险模型的估计、预测及拟合方法近几年逐渐被改进,方法也逐渐精确。在对生存数据进行分析时,我们一般直接根据资料是否满足参数或非参数检验的条件选择相关的检验,然而实际中我们接触的许多数据中协变量的效应可能是随时间变化的,也就是说几个协变量效应是可加的,当然也可能是相乘的或既有相加也有相乘效应。所以在遇到一组带有多个协变量的生存数据时,应该进行模型的拟合,但拟合之前首先应判断哪些变量为时依协变量,哪些协变量的效应不随时间变化;哪些协变量的效应是相加的,哪些是相乘的。如果协变量的效应种类非单一,应该选用灵活的相乘-可加危险模型进行估计和推断,以及进行生存率的估计。研究目的及方法本次研究是基于相乘-可加危险模型在生存资料中的深入广泛应用,模拟符合该模型协变量要求的随访资料进行分析,在此基础上选取Jensen,G.V.和Torp-Pedersen,C.等研究的一个包含500例心肌梗死病人的亚样本进行分析,以实现其在国内医学中的实际应用;并选取山西省700多例喉癌患者的随访资料采用传统的COX回归模型进行比较分析,希望相乘-可加危险模型的引入能克服目前生存分析中数据信息利用不充分,所挖掘信息量不大的缺点,对这种数据分析更加圆满、准确。本文模拟数据在SAS软件中实现,相乘-可加模型的所有程序及结果在R软件中实现。主要研究结果1.模拟分析参数估计在样本例数较小时结果不稳定,随着样本例数的增加,结果逐渐趋于稳定,逐渐接近模拟时定义的系数值。样本含量较小时,像200例时模型拟合较差,四段有两段拟合不好,随着样本例数增加,拟合效果也越来越好,在1600例时拟合最好。2.相乘-可加(COX-AALEN)危险回归模型实例分析协变量age、vf的统计推断p值均小于0.05,二者均拒绝原假设,说明这两个变量为时依协变量,sex、diabetes和chf则是非时依协变量,这与累积回归系数图结果一致。COX-AALEN模型的可加部分age效应有统计学意义,但vf无统计学意义。COX-AALEN模型的相乘部分,sex、diabetes和chf均是对心肌梗死患者生存率有影响的因素,从回归系数的正负号来看,三者均是危险因素。四个变量的模型拟合均较好。随着生存时间增加,心肌梗死患者的生存率逐渐降低。3.传统的COX回归模型与相乘-可加模型比较分析所有变量均为非时依协变量,p值均大于0.05。两模型对协变量回归系数、相对危险度(RR)和标准化回归系数的估计结果,仅有个别的在千分位上有所不同。肿瘤侵犯层次(arrangement),淋巴转移(transfer),放疗(radiotherapy)三个协变量在两模型均为生存时间的影响因素。模型拟合均较好,两模型对生存函数的估计一致。同一生存时间时,COX-AALEN模型估计的生存率要稍高于COX回归模型估计值。主要研究结论1.模拟分析相乘-可加模型可应用于不满足比例风险假定的资料,随着样本例数的增加,参数估计及模型拟合效果逐渐趋于稳定,逐渐接近真值,所以在应用此模型时一定要保证足够的样本量。2.相乘-可加(COX-AALEN)危险回归模型实例分析以前的传统的分析含时依协变量数据的方法大多太复杂或有很多缺点,而相乘-可加(COX-AALEN)危险回归模型可同时处理多个时依协变量,并能给出其效应,可以比较容易的估计出不满足比例风险假定生存数据的累积生存函数。3.与一般的COX回归模型比较COX-AALEN模型不仅适用于不满足比例风险假定的资料,其灵活性还在于可以分析满足比例风险假定的生存数据,可以看出该模型的应用比较广泛,对资料要求较少,不需对模型做任何改变就可以用来处理不满足比例风险假定的生存数据,灵活性非常好。