论文部分内容阅读
研究背景:糖尿病是一组由于胰岛素分泌绝对和(或)相对不足,和(或)作用缺陷所导致的以慢性高血糖为特征的代谢疾病,与遗传、自身免疫和环境因素相关,其慢性并发症可导致眼、肾、神经、心脏、血管等器官功能的严重损害或衰竭。根据国际糖尿病联盟(International Diabetes Federation,IDF)的统计,2011年全球糖尿病患者人数已达3.66亿,按照目前的发病率,估计到2030年全球糖尿病患者将达到5.52亿。多种临床研究显示,糖尿病的发生与生活方式密切相关,针对糖尿病发病的高危人群采取积极的生活方式干预可减少糖尿病的发生的机率。因此,采用非侵入性糖尿病风险评估工具进行糖尿病发病风险预测,早期发现高风险人群,积极予以干预治疗,对预防此种慢性流行性疾病的发生发展具有重大意义。研究目的:针对本研究人群建立非侵入性2型糖尿病风险评分系统,并与国内外经典非侵入性2型糖尿病风险评分系统进行对比,评价新评分系统的评估性能;应用数据挖掘中的集成算法,对新评分系统和已有的经典评分系统进行集成,明确集成后的模型性能;通过模型集成和验证,找出建立本类模型表现优秀的集成方式,为此类模型研究提供方法学依据。方法:根据糖尿病状况分层,原始数据随机分成70%(n=3837)的训练数据和30%(n=1644)的测试数据。训练数据用于通过最大化敏感性和特异性之和来确定每个评分系统的截止点,测试数据用于评估分类性能。第一部分采用套索回归(LASSO)、variable selection via nonconcave penalized likelihhod(SCAP)和minimax concave penalized likelihood(MCP)三种高维模型变量选择的惩罚似然方法,自动选择2型糖尿病的重要非侵袭性危险因素。使用两组选定变量在训练数据集上拟合两个逻辑回归,并使用回归系数和参考值形成简单评分系统。第二部分在建立本地区人群评分系统基础上,应用了两种集成算法:投票法(Majority voting,Weighted voting,Majority voting with model selection,Weighted voting with model selection)和叠加法(Stacking:Logistic regression,Stacking:LASSO,Stacking:SCAD,Stacking:MCP,Stacking:Stepwise regression)对新评分系统和国内外经典评分系统进行集成。通过对每个风险评分的受试者工作特征曲线(ROC)下的面积(AUC)来评估准确性,同时计算敏感性、特异性、阳性预测值(+PV)、阴性预测值(-PV)、阳性似然比(+LR)、阴性似然比(-LR)和Yonden指数(敏感性和特异性之和-1)。P值通过Hosmer-Lemeshow检验确定,其中P值(<0.05)表明相应模型拟合良好。结果:在5481名参与者中,66.9%为女性,22.7%为糖尿病,16%为当前吸烟者,4%为癌症患者,13%有糖尿病家族史,12%为高血压。与男性相比,女性的BMI(体重指数),HDL(高密度脂蛋白),LDL(低密度脂蛋白)和胆固醇水平更高,但其他变量的均值较低。与非糖尿病患者相比,糖尿病患者在大多数基线特征上具有更高的总体平均值(或百分比)。在第一部分中,三个惩罚似然选择器(LASSO,SCAD,MCP)选择了相似的变量,我们的新评分系统一选择了前四个模型的六个常见风险因素。然后通过更保守的模型选择算法ISIS选择四个变量:年龄,腰围,糖尿病家族史和高胆固醇,并仅使用这四个风险因素构建了另一个评分系统即新评分系统二。新评分系统一包括年龄(3分),腰围(5分),高血压(2分),糖尿病家族史(3分),高脂血症(2分)和心肌梗死(3分),得分范围从0到18分。评分系统二包括年龄(3分),腰围(5分),糖尿病家族史(3分)和高脂血症(2分),在四个变量上具有与第一个系统相同的得分分布,评分范围从0到13个点。我们的新评分系统最佳截断值分别为8和4,AUC和Youden指数略差于中国糖尿病风险评分,但优于所有其他评分系统。在第二部分中,比较AUC和Youden指数可知模型选择后使用投票法表现最好,优于所有的原始评分系统。模型选择后的加权投票算法,AUC达到0.850,而Youden系数为0.450,可见其发挥了最佳的性能。结果表明,模型选择后的表决法是集成风险评分系统的首选方法。结论:来源于长春地区40岁以上人群的新评分系统在评估本人群2型糖尿病患病风险中优于其他评分系统或与其他评分系统表现相当;应用数据挖掘中的集成方法可获得表现优于所有原始评分系统的新模型;在集成风险评分系统的方法中,模型选择后的表决法具有最佳性能。