论文部分内容阅读
目的:通过模拟和实例研究对四种基于LASSO的可用于整合临床和组学特征构建疾病风险预测模型的方法——Naive-LASSO法,Separate-LASSO法,IPF-LASSO法和Priority-LASSO法的性质进行探讨和比较,为临床建立疾病风险预测模型提供建议。方法:首先,介绍Naive-LASSO法,Separate-LASSO法,IPF-LASSO法和Priority-LASSO法的原理。其次,模拟产生六种稀疏性和变量强度不同的临床和组学数据,并通过改变协方差矩阵改变各数据内部以及它们之间的相关关系,本研究考虑以下三种相关关系:(1)临床数据和组学数据内的变量相互独立,两数据间不相关,协方差矩阵设为单位矩阵;(2)临床数据和组学数据内的变量呈复合对称相关,两数据间不相关,协方差矩阵设为块对角矩阵;(3)临床数据和组学数据内的变量相关,两数据间也相关,协方差矩阵设置更复杂。通过以上操作共形成18种模拟场景,然后使用上述四种方法针对各模拟场景建立预测模型,并通过AUC、Brier score和变量筛选个数对四种方法在不同模拟场景中的表现进行比较。最后,分别用这四种方法对弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者的临床和lncRNA表达数据进行分析,建立新的DLBCL预后评价系统,按照模拟研究的评价标准对各方法在实例中的表现进行评估。结果:模拟研究显示,无论在哪一种模拟场景下,四种方法中均是IPF-LASSO法和Priority-LASSO法表现最好,Separate-LASSO法所筛变量数最多。其中IPF-LASSO法的预测准确性比Priority-LASSO法还要好一些,它的AUC值总高于Priority-LASSO法,Brier score低于Priority-LASSO法。而且四种方法在满足后两种相关关系的数据中的预测准确性要高于它们在完全独立的数据中的预测准确性。但无论临床和组学数据满足何种相关关系,当临床数据的稀疏性和变量强度一定时,组学数据的稀疏性和变量强度的变化对四种方法的预测表现的影响均不大,但当组学数据的稀疏性和变量强度一定时,临床数据的稀疏性和变量强度的变化对四种方法的预测表现的影响均较大。实例研究结果和模拟结果一致,也是IPF-LASSO法和Priority-LASSO法所建的DLBCL预后模型的预测准确性较高,且包含的变量个数较少。而且二者有7个变量是相同的。结论:Naive-LASSO,Separate-LASSO,IPF-LASSO和Priority-LASSO四种方法相比,IPF-LASSO法和Priority-LASSO法所筛变量个数较少,它们构建的疾病风险预测模型通常具有较高的预测准确性和临床实用价值。因此在整合临床和组学数据建立疾病风险预测模型时,可以优先考虑使用这两种方法。