基于随机森林联合Logistic回归模型变量筛选策略的45岁及以上中老年人群代谢综合征相关因素分析

来源 :河北医科大学 | 被引量 : 0次 | 上传用户:wadfgh1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究应用2015年中国健康与养老追踪调查数据库比较单纯随机森林、随机森林联合Logistic回归模型(联合模型)和单纯Logistic回归模型在变量筛选中的差异,并依据最佳模型探索代谢综合征的相关因素,为代谢综合征的预防提供科学依据。方法:1.本研究使用2015年中国健康与养老追踪调查数据,调查对象为中国45岁及以上人群。依据2009年国际糖尿病联合会、美国国家心肺血液研究所、美国心脏协会、世界心脏联合会、国际动脉硬化协会以及国际肥胖症研究会临时联合声明里提出的统一标准,将调查对象分为代谢综合征组和未患代谢综合征组。2.合并数据文件,剔除无法确诊的观察单位及与代谢综合征相关变量后剩余13420个观察单位,4033个变量;删除缺失值在10%及以上的变量及观察单位后剩余12330个观察单位,343个变量;择一剔除相关系数>0.8的变量,最终剩余12330个观察单位,304个变量。3.整理数据后分别构建单纯随机森林、联合模型和单纯Logistic回归模型。联合模型首先利用随机森林得到各变量重要性评分,将变量按重要性评分由大到小的顺序排序,再结合随机森林和向前变量选择法筛选最佳变量组合;将筛选出的变量进一步构建Logistic回归模型。比较单纯随机森林、联合模型和单纯Logistic回归模型筛选变量及模型评价指标的差异。结果:1.本研究最终有研究对象12330人,其中男性5792人,女性6538人,代谢综合征患病率为38.79%。男性患病率为29.40%;女性患病率为47.11%;城市患病率为46.03%,农村患病率为34.41%。2.结合向前变量选择法构建随机森林,综合考虑准确率、约登指数等模型评价指标和变量类别后,选择41个变量为最佳变量组合。3.三种模型模型评价指标比较:单纯随机森林准确率、约登指数等评价指标最优,其次是联合模型,最后是单纯Logistic回归模型,且联合模型的BIC优于单纯Logistic回归模型。三种模型变量筛选比较:单纯随机森林筛选出41个变量,其中血检指标有11个,体测指标9个,经济因素变量15个,“噪声变量”4个,其它变量2个;单纯Logistic回归模型筛选出31个变量,其中血检指标有9个,体测指标4个,经济因素变量6个,“噪声变量”3个,其它变量9个;联合模型筛选出20个变量,其中血检指标9个,体测指标4个,经济因素变量4个,其它变量4个,联合模型将“噪声变量”剔除。与单纯随机森林相比,联合模型未筛选出的变量中有9个变量与代谢综合征无关,8个变量与代谢综合征有关;与单纯Logistic回归模型相比,联合模型未筛选出的变量中有7个变量与代谢综合征无关,3个变量与代谢综合征有关。4.联合模型因素分析结果:血检指标中C反应蛋白、糖化血红蛋白、尿酸、白细胞、血清胱抑素C、血红蛋白、高密度脂蛋白胆固醇、血尿素氮和肌酐的OR值分别为1.020、1.738、1.294、1.071、2.589、1.062、0.991、0.977和0.710。体测指标中脉搏、上臂长、身高和体重的OR值分别为1.014、0.961、0.986和1.111。经济因素中过去1周饮食花销(不包括外出就餐和买烟酒)、过去1个月水电费OR值均小于1;个人收入及过去1个月邮电费OR值均大于1;性别、年龄和工作强度的OR值分别为6.266、1.026和1.145。结论:1.分析大样本,变量个数过多的大型调查数据时,先使用随机森林模型筛选变量,再利用Logistic回归模型对筛选后的变量进行分析,减少噪声变量个数,准确率较高,提高模型的可解释性。2.代谢综合征的患病风险女性高于男性;年龄,个人收入及工作强度与代谢综合征存在关联。血检指标中C-反应蛋白、白细胞、尿酸、血清胱抑素C、血红蛋白和糖化血红蛋白与代谢综合征呈正相关;而肌酐、高密度脂蛋白胆固醇和血尿素氮与代谢综合征呈负相关。上臂长、身高、体重和脉搏与代谢综合征也存在关联。
其他文献
目的:探究肌间隙TLIF(Transforaminal Lumbar Interbody Fusion,TLIF)与传统TLIF治疗腰椎间盘突出症术后发生邻近阶段退变的情况。方法:回顾性分析了59名单节段腰椎间盘突出症行腰椎后路椎间盘切除、椎体融合术的患者。根据手术入路的不同,分为肌间隙TLIF联合椎弓根螺钉内固定术(肌间隙组,30例)和传统TLIF联合椎弓根螺钉内固定术(传统组,29例)。临床观
目的:探讨生物钟基因Bmal1基因敲除对糖尿病小鼠心肌纤维化的加重作用。方法:12只野生型C57BL/6小鼠和12只Bmal1基因敲除C57BL/6小鼠随机分为野生型对照组(WT组)、野生型DM组(WT-DM组)、基因敲除型对照组(KO组)及基因敲除型DM组(KO-DM组),每组6只。采用链脲佐菌素(STZ)连续腹腔注射5天,剂量为50mg/kg/天,建立1型DM小鼠模型。鼠龄和性别匹配的对照组腹
目的:超重和肥胖是许多慢性疾病的主要危险因素,导致了很大一部分的全球疾病负担、死亡和残疾。平衡能量摄入和体力活动是减肥和维持体重关键且基本的方式。此外,体力活动不足也是许多非传染性疾病和死亡事件的一个主导危险因素。许多meta分析已经研究了在不同特征人群中应用手机APP干预以减轻体重和促进体力活动的有效性,结论不尽相同,如在体力活动方面的效果结论并不一致。另一方面,基于手机APP的减重干预方法实际
目的:颈动脉内膜剥脱术(carotid endarterectomy,CEA)患者术后认知功能障碍(postoperative cognitive dysfunction,POCD)发生率高,术后并发症几率多,但风险因素仍不明确,因此我们通过探讨CEA术后POCD发生的危险因素,探讨视神经鞘直径(op tic sheath diameter,ONSD)预估颈内动脉剥脱术后早期认知功能下降的作用。方
目的:探究快速康复理念(ERAS)应用于无骨折脱位型颈髓损伤单开门椎管减压术的安全性及临床效果。方法:选取2018年6月-2020年09月期间因无骨折脱位型颈髓损伤在沧州市中心医院行颈椎后路单开门椎管减压术的住院患者58例,根据围手术期处理方法不同,将58位患者分成ERAS组及对照组,ERAS组围手术期应用快速康复外科处理方法,对照组采用传统围手术期处理方法,比较两组患者年龄、性别、身高、体重、B
背景:高尿酸血症是一种可以引起痛风,并与高血压,血脂紊乱,心脏病等多种心血管疾病相关的疾病。随着经济的发展和生活方式的改变,高尿酸血症的患病率呈现出上升趋势。众所周知,饮食与高尿酸血症密切相关,但有关膳食模式与高尿酸血症的关系目前还知之甚少。目的:本研究旨在通过营养流行病学调查,了解河北省成年居民的高尿酸血症患病情况,并探讨膳食模式与高尿酸血症之间的关系。方法:采用多阶段分层整群抽样的方法,抽取河
目的:脂蛋白相关磷脂酶A2(Lp-PLA2)作为一种新的炎症因子被越来越多的人认为与胰岛素抵抗、慢性炎症反应及糖脂代谢相关。国外已有研究表明Lp-PLA2与肥胖和2型糖尿病(T2DM)有关。本次研究的目的是测定受试者Lp-PLA2的水平,探究其与T2DM和超重的关系。方法:我们纳入了T2DM受试者87例,非T2DM受试者84例。根据是否超重将上述两组分为T2DM&超重组(47例)、T2DM&正常体
目的:2型糖尿病的血管并发症是患者致残致死的主要原因。寻找早期评估和预测糖尿病血管并发症风险的指标显得尤为重要。中性粒细胞与淋巴细胞比值(Neutrophil to lymphocyte ratio,NLR)是近年来发现的新型炎症标志物。本研究旨在评估NLR与2型糖尿病(Type 2 diabetes mellitus,T2DM)血管并发症的关系,探讨其在2型糖尿病血管并发症中的预测价值。方法:选
目的:探讨超声引导下甲状腺结节细针穿刺细胞学(Ultrasound-guided fine needle aspiration cytology,US-FNAC)诊断准确度的影响因素,为提高诊断准确度提供理论依据。方法:本研究回顾性分析了自2017年3月至2020年9月在河北省人民医院超声科行甲状腺结节US-FNAC且实施手术的患者483例,共542个结节。以术后病理结果为金标准,计算了甲状腺结节
MicroRNAs(miRNAs)是一中非编授的MicroRNAs,参与细胞增殖、凋亡、中化、授谢、发育、肿瘤转移等多种生物学过程,在疾病的诊断和治疗中具有广阔的应用前景。miR-155与多种疾病的生理和病理过程密切相关。我们以往的研究发现,富含miR-155的平滑肌来源的外泌体在诱导内皮损伤的同时还有促进动脉粥样硬化的发生的作用。在骨髓来源的巨噬细胞中,miR-155通过与TNF-α形成正反馈环