论文部分内容阅读
肝细胞癌(Hepatocellular Carcinoma,简称HCC)是目前最常见的肝癌类型。其发病率在各类癌症发病率中高居世界第五位,死亡率高居世界第四位。并且其发病率具有区域性,以亚洲与非洲发病率最高。我国是肝癌发病大国,全世界的肝癌病人中,中国人占了55%,而死亡人数则占50%。全球每年大约有80万的新发肝癌患者,其中中国占了43万。早在20世纪七八十年代,我国的研究人员就开始了对肝癌的研究。通过这几十年的积累我国在肝癌研究和治疗领域已经走在了世界的前列。研究工作从早期的临床诊断和治疗逐渐发展成为集预防、早期诊断、治疗和预后评估等一体的系统性研究。医生在诊断肝癌这种致命疾病时,常常需要作一个判断,即病人还能够生存多长时间,或者哪些因素影响着病人的生存时间。合理地回答该问题对医生和相关研究者的帮助甚大。基于对该问题的正确回答,医生能够给病人选择并制定出更加合理的治疗方案,研究者可以对相关课题进行更为精确的研究。本文分别从观察期长短、变量筛选方法、模型选择三个方面对2003-2012年期间复旦大学附属中山医院4162名肝癌患者术后介入治疗及干扰素治疗的的相关临床数据进行分析,使用单因素分析、逻辑回归等方法对影响患者术后治疗生存时间的因子进行了初步探索,并使用Cox比例风险模型及随机生存森林模型构建肝癌患者术后辅助治疗疗效评估的预后预测模型。首先本文通过分别对以10年为观测期及以3年为观测期的数据进行单因素分析,最后使用多因素分析构建Cox比例风险模型进行对比,以考察时间长短是否会对模型结果产生较大的影响,结果发现短期(3年期)的模型预测准确性要远高于长期(10年期)的模型预测准确率。为了进一步考察Cox比例风险模型的稳定性,在本文的实证第二步中使用了不同的变量筛选方法,首先通过计算各变量的woe值(weight of evidence)及iv值(information value),根据Naeem Siddiqi(2006年)在其文献中提出的变量筛选准则对变量进行了初步筛选,随后将筛选所得的变量引入二分类logistic回归中,以患者在观察期内的生存状态(1为死亡,0为生存)为因变量,对变量进一步进行筛选,最后引入多因素Cox比例风险模型中构建肝癌术后辅助治疗疗效的预后模型,结果发现使用不同的变量筛选方法对Cox模型的预测准确性产生的影响很小,因而我们可以认为Cox模型具有较好的预测稳定性。由于Cox模型的预测精确度稳定在72%左右,同时Cox模型的具体形式(哪些变量存在交互作用)依赖于建模者的经验,同时其风险函数无法估计。而历史文献表明,在高维数据中使用随机生存森林模型构建预后模型(其他疾病)能够大幅度提高预测精确度,同时由于随机生存森林能够自动检验变量之间的交互作用而不需要做特征选择,及预测累计风险函数等优点。因此,为了考察是否存在更优的预后模型,本文实证的最后一部分选择了随机生存森林模型构建肝癌患者术后辅助治疗疗效预后模型。结果表明,在本次研究中,模型的预测精确度与之前所构建的模型接近,均为72%左右。在本文的最后还根据给出一个患者的相关数据,对其生存率做预测,并绘制出该患者的生存曲线。通过以上三次对比,可以发现,三个模型的预测精确度均为72%左右,然而由于Cox模型形式选择的主观性,有可能使用不同的数据或者采用不同的模型形式会降低模型的精确度,而随机生存森林模型具有自动检测变量相互作用及估计累计风险函数,预测精确度相当稳定,因而本文认为肝癌术后辅助治疗疗效评估统计的最优模型应为随机生存森林模型。对肝癌患者术后生存率起主要影响作用的变量分别为是否有癌栓(Vas Inv)、肿瘤尺寸(Size)、乙型肝炎E抗原是否为阳性(HBe Ag)、干扰素治疗(INF)、介入治疗(pre TACE)等。