基于数据挖掘方法的长春地区40岁以上人群2型糖尿病非侵入性风险评分研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:gx8689326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:糖尿病是一组由于胰岛素分泌绝对和(或)相对不足,和(或)作用缺陷所导致的以慢性高血糖为特征的代谢疾病,与遗传、自身免疫和环境因素相关,其慢性并发症可导致眼、肾、神经、心脏、血管等器官功能的严重损害或衰竭。根据国际糖尿病联盟(International Diabetes Federation,IDF)的统计,2011年全球糖尿病患者人数已达3.66亿,按照目前的发病率,估计到2030年全球糖尿病患者将达到5.52亿。多种临床研究显示,糖尿病的发生与生活方式密切相关,针对糖尿病发病的高危人群采取积极的生活方式干预可减少糖尿病的发生的机率。因此,采用非侵入性糖尿病风险评估工具进行糖尿病发病风险预测,早期发现高风险人群,积极予以干预治疗,对预防此种慢性流行性疾病的发生发展具有重大意义。研究目的:针对本研究人群建立非侵入性2型糖尿病风险评分系统,并与国内外经典非侵入性2型糖尿病风险评分系统进行对比,评价新评分系统的评估性能;应用数据挖掘中的集成算法,对新评分系统和已有的经典评分系统进行集成,明确集成后的模型性能;通过模型集成和验证,找出建立本类模型表现优秀的集成方式,为此类模型研究提供方法学依据。方法:根据糖尿病状况分层,原始数据随机分成70%(n=3837)的训练数据和30%(n=1644)的测试数据。训练数据用于通过最大化敏感性和特异性之和来确定每个评分系统的截止点,测试数据用于评估分类性能。第一部分采用套索回归(LASSO)、variable selection via nonconcave penalized likelihhod(SCAP)和minimax concave penalized likelihood(MCP)三种高维模型变量选择的惩罚似然方法,自动选择2型糖尿病的重要非侵袭性危险因素。使用两组选定变量在训练数据集上拟合两个逻辑回归,并使用回归系数和参考值形成简单评分系统。第二部分在建立本地区人群评分系统基础上,应用了两种集成算法:投票法(Majority voting,Weighted voting,Majority voting with model selection,Weighted voting with model selection)和叠加法(Stacking:Logistic regression,Stacking:LASSO,Stacking:SCAD,Stacking:MCP,Stacking:Stepwise regression)对新评分系统和国内外经典评分系统进行集成。通过对每个风险评分的受试者工作特征曲线(ROC)下的面积(AUC)来评估准确性,同时计算敏感性、特异性、阳性预测值(+PV)、阴性预测值(-PV)、阳性似然比(+LR)、阴性似然比(-LR)和Yonden指数(敏感性和特异性之和-1)。P值通过Hosmer-Lemeshow检验确定,其中P值(<0.05)表明相应模型拟合良好。结果:在5481名参与者中,66.9%为女性,22.7%为糖尿病,16%为当前吸烟者,4%为癌症患者,13%有糖尿病家族史,12%为高血压。与男性相比,女性的BMI(体重指数),HDL(高密度脂蛋白),LDL(低密度脂蛋白)和胆固醇水平更高,但其他变量的均值较低。与非糖尿病患者相比,糖尿病患者在大多数基线特征上具有更高的总体平均值(或百分比)。在第一部分中,三个惩罚似然选择器(LASSO,SCAD,MCP)选择了相似的变量,我们的新评分系统一选择了前四个模型的六个常见风险因素。然后通过更保守的模型选择算法ISIS选择四个变量:年龄,腰围,糖尿病家族史和高胆固醇,并仅使用这四个风险因素构建了另一个评分系统即新评分系统二。新评分系统一包括年龄(3分),腰围(5分),高血压(2分),糖尿病家族史(3分),高脂血症(2分)和心肌梗死(3分),得分范围从0到18分。评分系统二包括年龄(3分),腰围(5分),糖尿病家族史(3分)和高脂血症(2分),在四个变量上具有与第一个系统相同的得分分布,评分范围从0到13个点。我们的新评分系统最佳截断值分别为8和4,AUC和Youden指数略差于中国糖尿病风险评分,但优于所有其他评分系统。在第二部分中,比较AUC和Youden指数可知模型选择后使用投票法表现最好,优于所有的原始评分系统。模型选择后的加权投票算法,AUC达到0.850,而Youden系数为0.450,可见其发挥了最佳的性能。结果表明,模型选择后的表决法是集成风险评分系统的首选方法。结论:来源于长春地区40岁以上人群的新评分系统在评估本人群2型糖尿病患病风险中优于其他评分系统或与其他评分系统表现相当;应用数据挖掘中的集成方法可获得表现优于所有原始评分系统的新模型;在集成风险评分系统的方法中,模型选择后的表决法具有最佳性能。
其他文献
<正> 城固县龙头镇上街南侧有一土包,一九八○年和一九八一年,农民在土包上挖土,发现两批商代青铜器。共计:圆罍3件,尊2件,簋1件,提梁卣2件,壶1件,觚5件,爵1件,(?)1件,矛7件,
<正> 在中古货币史上,魏晋南北朝时期是传统五铢币制向唐代通宝币制转变的一个过渡阶段,也是中古商品货币经济潮流从两汉波峰跌落,并逐渐进行结构性和区域性调整恢复的阶段。
会议
本文首先从资源的角度,分析了港口岸线的自然和人工双重属性,评述了我国沿海港口岸线的资源分布特征和开发利用特点。港口岸线等级评价,是一个多因素综合效果的系统评价问题
倾斜光纤光栅是一类特殊的布拉格光纤光栅,在光学滤波、光纤传感、光纤通信等方面具有重要的应用价值。简要介绍了倾斜光纤光栅中的模式耦合机理,全面回顾了其理论研究、制作
我国改革开放以来,社会经济进行不断地快速发展,对于企业市场经济要求越来越高,因此我国提出经济新常态的战略要求,以此来促进我国企业的经济快速发展,在经济新常态的背景下,
针对当今儿童美术教育在课程设置和教学方式方面出现的线描、临摹和教师帮学生改画等问题,作者表达出自己的观点,并在其多年实践教学经验的基础上提出解决办法,旨在促进儿童