随机森林算法对体检人群糖尿病患病风险的预测价值研究

来源 :中国全科医学 | 被引量 : 0次 | 上传用户:sjtshuaige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景2017年我国是全世界糖尿病患者人数最多的国家,糖尿病患者人数达到了1.14亿,及早识别糖尿病高危人群并对其进行有效干预,能够降低糖尿病的患病风险。目的探讨随机森林算法在体检人群糖尿病患病风险预测中的应用价值。方法 2016年9月—2017年3月,利用乌鲁木齐市石油新村街道和卡子湾街道社区卫生服务中心35~74岁全民健康体检的数据进行研究,考虑到数据的完整性最终纳入6 727例体检者数据(包含调查问卷、体格测量和实验室检测3部分内容),其中调查问卷内容包括一般人口学资料,体格测量指标包括身高、体质量、腰围等,实验室检测指标包括血液、血糖、血生化等。将数据集按3∶1分为训练集和测试集,在训练集中分别应用多因素Logistic回归和随机森林算法建立糖尿病风险预测模型,用测试集进行模型验证,通过预测一致率和受试者工作特征曲线下面积(AUC)评价模型的预测效能。结果在本次体检的6 727例体检者中,既往糖尿病患者和新检测出糖尿病患者717例,糖尿病患病率为10.7%。糖尿病患者中65岁及以上者占37.1%(266/717),女性占51.0%(366/717),汉族占94.0%(674/717),初中学历者占35.3%(253/717),超重者占48.0%(344/717),从不吸烟者占72.8%(522/717),从不饮酒者占77.0%(552/717)。采用多因素Logistic回归分析在训练集建立糖尿病风险预测模型对测试集进行预测,其灵敏度为0.202,特异度为0.950,预测一致率为0.696,约登指数为0.151,AUC为0.685;采用随机森林算法在训练集建立糖尿病风险预测模型对测试集进行预测,其灵敏度为0.608,特异度为0.953,预测一致率为0.864,约登指数为0.561,AUC为0.702。结论随机森林算法对体检人群的糖尿病患病风险具有较高的预测效能,但是多因素Logistic回归分析对糖尿病影响因素有直观的解释。建议在实际应用中结合两个模型的优点,使其在疾病风险预测中发挥最大的价值。
其他文献
目的:观察评价介入性输卵管再通术诊治输卵管阻塞性不孕的效果。方法:随机选取笔者所在医院2016年2月-2017年2月68例输卵管阻塞性不孕患者为本次研究对象,按照手术类型不同分
目的:研究超低剂量扫描在CT引导下肺部穿刺活检中的应用。方法:2009年1月至2014年12月来本院200例行胸部CT引导下穿刺的患者分为常规剂量组(130 k V,90 m As)、超低剂量组(10
研究背景:腰椎间盘退行性病变(degenerative disc disease,DDD)是人类的一类较严重的慢性病,也是导致腰部疼痛(low back pain,LBP)发生的一个关键诱因,在很大程度上致使了人
本文从产业组织理论出发,运用SCP分析框架对广东省旅游业的市场结构、行为和绩效进行考察和研究,对三者之间的互动关系以及成因进行分析。广东省旅游业取得了巨大的成就,旅游
近年来,随着我国社会经济水平的不断发展,家庭金融资产选择行为发生很大的变化,由以前单一的银行储蓄逐渐向金融资产多元化趋势发展。家庭金融资产的多元化,又会产生家庭金融
硼酸作为一种重要的化学品,广泛应用于工业生产及高尖端技术领域。由于在其生产和应用过程中产生大量含硼废水,从水溶液中回收或脱除硼对资源的重复利用、降低环境污染等都有
数字环境下报纸新闻付费还是免费已然成为近年业界和学界的争议焦点。本文从影响报纸版权保护的内外部要素着手,系统分析新闻特性和数字环境对报纸版权保护的影响,认为二者都
2008年1月1日实施的《中华人民共和国劳动合同法》(以下简称《劳动合同法》),对于促进经济发展,维护劳动者的合法权益,调动劳动者的积极性,提高用人单位的经济效益,具有十分
目的 探讨在瑞芬太尼痛觉过敏切口痛模型及皮肤/肌肉切口牵拉模型中脊髓神经元限制性沉默因子(NRSF)的作用。方法 第一部分:7-8周龄的健康清洁级成年雄性昆明小鼠56只,体重20~25
硫酸软骨素(ChS)是一种天然的酸性黏多糖,生物活性多样,在医学、生物、制药、食品、化妆品和材料等领域均有广泛应用,特别是在治愈骨关节病上具有颇为理想的效果。本文系统地