论文部分内容阅读
目的:传统心力衰竭生存模型使用Cox比例风险回归算法构建,但是其受到诸多限制,如比例风险假设、变量选择偏差等。本文针对慢性心衰患者死亡的生存分析预测问题,构建基于极限学习机的Cox生存分析模型,实现对高删失比例、复杂变量关系的住院患者EHRs数据建模,提高生存模型的预测能力。为临床医师进行慢性心衰患者预后评估及进行个性化治疗提供理论基础,并辅助制定高风险患者干预计划。方法:收集山西医科大学附属第一医院和山西省心血管医院2014年1月1号至2019年4月15号期间,心内科确诊为慢性心力衰竭并符合本研究纳入排除标准和知情同意的住院患者完整病历资料5279例。对符合本次研究的变量进行单因素Cox分析,随后利用Lasso Cox回归、随机生存森林(Random Survival Forest,RSF)筛选出各自表现最优的变量作为输入变量及ELM Cox纳入全部变量,以是否死亡作为结局变量,构建以上模型,探讨生存模型预测精度。另外,在真实数据建模前利用模拟数据,分别模拟25%、50%和75%三种不同删失比例下Lasso Cox、RSF和ELM Cox预测模型的表现。结果:1、模拟研究结果显示,在25%比例的删失数据时,RSF和ELM Cox两者性能相差无几,C-index均在0.75以上,Lasso Cox表现稍差。三种的IBS均在0.1以下,三种算法整体性能比较稳定;在50%比例的删失数据时Lasso Cox和RSF表现逊于ELM Cox,后者的C-index和IBS指标较另外两种模型表现优秀;在75%比例的删失数据时,三种模型的性能有所降低,C-index均在0.6以下,IBS均在0.15以上。总体来看,随着删失数据比例的增加,三种算法的模型预测性能会逐渐降低,其中ELM Cox表现在三者中整体表现最好。2、Lasso Cox和RSF利用单因素Cox分析筛选出有意义的54个变量对其进行筛选。Lasso Cox最终入选模型的变量为:N端前脑钠肽、游离三碘甲状原氨酸、纽约分级、游离甲状腺素、年龄、红细胞分布宽度、白蛋白、肾功能不全、体质指数、陈旧性心肌梗死、舒张压、强心剂、糖尿病、血清直接胆红素、β受体阻滞剂、中性粒细胞绝对值、瓣膜病等共17个变量;RSF最终选取N端前脑钠肽、纽约分级、游离甲状腺素、红细胞分布宽度、白蛋白、年龄、中性粒细胞比值和体质指数8个变量进行后期建模。3、模型预测能力评价:传统Cox比例风险模型的C-index最低为0.644,而IBS最高为0.221,相比其它三种模型表现最差。经过对原始数据集进行Lasso惩罚后的Cox模型表现比传统Cox较好,两个指标上均要优于Cox模型。其中ELM Cox模型的C-index最高为0.77,说明该算法构建的模型准确率最高,IBS仅为0.185模型整体表现最为稳定。本次真实数据研究结论与前文模拟研究结论基本一致,可以认为将极限学习机的Cox比例风险模型应用于慢性心衰患者生存分析中有更高的预测效果。结论:在本研究中,我们使用了一种新的临床预测建模算法—ELM Cox模型来建立慢性心力衰竭的生存预测模型,与传统Cox回归、Lasso Cox回归和随机生存森林等模型相比,ELM Cox有更高的预测精度说明慢性心衰预测变量与响应变量之间存在着较为复杂的交互作用。虽然有研究表明RSF对于高维、非线性、不满足比例风险假设等条件的数据上较Cox有很大优势,但是对于高维、复杂、有较高删失比例的慢性心衰EHRs数据仍然无法建立高精度的预测模型,而ELM Cox在这一点上有较大优势。本研究将极限学习机尝试运用在慢性心衰生存分析预测中,对心衰患者进行死亡分析评估,提示慢性心衰患者不良预后死亡的高危人群,对患者开展有针对性的治疗措施,提供理论依据。