【摘 要】
:
目的:针对2011-2018年美国国家健康与营养调查(NHANES)数据,使用支持向量机(SVM)、Category Boosting梯度提升(Cat Boost)、Back Propagation(BP)神经网络和深度学习算法建立模型,比较四种方法在各个测试集中预测抑郁症的准确性,探讨机器学习算法在抑郁症预测及辅助诊断中的应用价值。方法:描述研究对象的一般情况,剔除2011-2018年NHANE
论文部分内容阅读
目的:针对2011-2018年美国国家健康与营养调查(NHANES)数据,使用支持向量机(SVM)、Category Boosting梯度提升(Cat Boost)、Back Propagation(BP)神经网络和深度学习算法建立模型,比较四种方法在各个测试集中预测抑郁症的准确性,探讨机器学习算法在抑郁症预测及辅助诊断中的应用价值。方法:描述研究对象的一般情况,剔除2011-2018年NHANES数据中缺失值超过10%的变量,对保留变量的缺失值采用均值插补和同类均值插补,对数据重新采样以解决数据不平衡问题。使用逐步回归筛选抑郁症特征变量,将筛选后数据按照7:3划分为训练集和测试集,在训练集上使用R软件中e1071包、Catboost包、nnet包和H2O平台建立SVM、Cat Boost、BP神经网络和深度学习四种机器学习模型,在测试集上使用灵敏度、特异度、准确率和受试者工作特征曲线下面积(AUC)评价机器学习模型的预测效果。在不同特征集中重复实验过程,以选出抑郁症最优预测模型,并使用最优模型筛选抑郁症的影响因素。结果:1.一般情况:19406名20岁及以上成年人中男性9515人,女性9891人,分别占49.0%和51.0%;患有抑郁症者1747人,占9.0%,非抑郁症者17659人,占91.0%。χ~2检验结果显示,不同性别、年龄、种族、教育程度、婚姻状态、收入和BMI等级与抑郁症的关联均具有统计学意义(P<0.05)。2.特征集变量选取情况:本研究中特征为247个,使用逐步回归筛选变量后,人口学特征集中预测抑郁症的最终建模变量为家庭成员数量、种族和年龄等9个变量;实验室特征集的最终建模变量为磷(mmol/L)、肌酸磷酸激酶(IU/L)和高密度脂蛋白胆固醇(mmol/L)等14个变量;膳食特征集的最终建模变量为食物和饮料中摄入的酒精含量(g)、膳食中摄入的能量(kcal)和十八碳三烯酸(g)等12个变量;问卷特征集的最终建模变量为患有高血压、吸烟和中风等24个变量;体力活动特征集的最终建模变量为久坐时间、进行剧烈活动和走路时需要特殊设备等7个变量,总特征集共66个变量。3.机器学习预测抑郁症情况:SVM、Cat Boost、BP神经网络和深度学习模型在总特征集中预测效能最好,在膳食特征集中预测效能最低。在人口学特征集中,四种模型的主要评价指标AUC值分别为0.697、0.701、0.691和0.712。在实验室特征集中,四种模型的AUC值分别为0.635、0.620、0.641和0.655。在膳食特征集中,四种模型的AUC值分别0.602、0.587、0.594和0.619。在问卷特征集中,四种模型的AUC值分别0.785、0.831、0.824和0.838。在体力活动特征集中,四种模型的AUC值分别0.736、0.761、0.760和0.789。在总特征集中,四种模型的AUC值均达到了0.8以上,分别为0.849、0.854、0.853和0.863。抑郁症预测效果最好的是深度学习模型。4.筛选抑郁症影响因素情况:使用深度学习模型和Cat Boost模型筛选抑郁症的重要影响因素,深度学习模型筛选前5位重要特征为睡眠障碍、一般健康状况、工作受限、活动受限和酒精摄入含量,其重要性因子分别为1.000、0.976、0.858、0.776和0.745。Cat Boost模型筛选前5位重要特征为一般健康状况、肌酐、睡眠障碍、记忆困难和工作受限,其重要因子分别为19.361、19.349、13.489、9.930和5.434。结论:1.美国成年人的抑郁症患病率为9.0%,女性、收入和文化程度较低的成年人更易患抑郁症。2.SVM、Cat Boost、BP神经网络和深度学习模型在抑郁症预测应用中均具有可行性。深度学习模型是预测抑郁症的最优模型,其次是Cat Boost模型。3.利用深度学习模型筛选影响抑郁症的前5位重要特征为睡眠障碍、一般健康状况、工作受限、活动受限和酒精摄入含量。在男性中影响抑郁症的首位因素是睡眠障碍,在女性中影响抑郁症的首位因素是碱性磷酸酶。4.利用Cat Boost模型筛选前5位重要特征为一般健康状况、肌酐、睡眠障碍、记忆困难和工作受限。在男性中影响抑郁症的首位因素是睡眠障碍,在女性中影响抑郁症的首位因素是一般健康状况。
其他文献
目前,寻找智能组装或响应性胶体组装的构建块或方法成为研究热点。通过改变胶体结构的组成、形态和表面性质,以构建具备响应性的胶体结构,可扩大其在食品、生物医药等领域的应用。本文以铁与无机或有机物配位,利用其特定的响应行为(磁响应,p H响应,近红外光热效应),构建出适用于不同响应平台的铁基胶体结构;并考察了其作为级联反应平台验证植物蛋白的健康效应、杀菌等应用前景,为铁基胶体结构的智能构建和其在食品中的
生食水产品因其营养丰富,味道鲜美而受到消费者的喜爱。目前,由微生物污染引起的生食水产品质量恶化和食品安全问题日益突出。副溶血性弧菌(Vibrio parahaemolyticus)是水产品中常见的致病菌污染之一,进入人体后会引发肠胃炎,严重时导致败血症甚至死亡。探索能有效解决水产品中副溶血性弧菌污染问题的方法对减少其引起的食源性疾病具有很强的现实意义。本文以副溶血性弧菌为研究对象,研究苯乳酸对其浮
目的:代谢是人体最基本的生命活动,代谢相关疾病(MD)是一类以胰岛素抵抗、腹部肥胖、高血压、高血糖、血脂异常等为特征的症候群,随着社会经济条件的发展,这种慢性非传染性疾病的发病率越来越高,已成为人类社会的主要健康危害之一。不同MD在病因方面可能存在部分重叠,发病机制与机体炎症状态有关。不良的饮食结构、行为特征等非遗传因素与机体全身性慢性炎症的发生存在关联。因此,各类MD的发生可能与促炎营养素及饮食
大豆是日常饮食中最重要和应用最广泛的植物蛋白原料。作为全价蛋白,大豆蛋白含所有人体必需氨基酸,不含胆固醇,饱和脂肪较少。然而有关热处理对各类大豆制品及大豆分离蛋白(Soy Protein Isolate,SPI)在模拟人体胃肠道条件下的消化特性及营养性的影响还不明晰,本研究旨在基于标准的体外静态消化模型研究不同热处理对大豆蛋白的体外消化特性及其消化产物对胆囊收缩素(Cholecystokinin,
目的:近年来,除传染性疾病外,常见的代谢性疾病已成为危害全球人民生命健康的重点疾病。同时,人群中久坐行为情况日益加剧,且久坐行为与多种慢性疾病或其风险因素密切相关。因此,本研究通过探究久坐行为与四种慢性代谢性疾病(高血压、糖尿病、高脂血症和代谢综合征)之间的关系,为指导人群减少久坐行为、预防慢性代谢性疾病发生提供理论依据。方法:本研究数据来自2011-2016年美国国家健康与营养调查(Nation
目的:本研究旨在了解老年人群铅、镉、汞的内暴露水平与高尿酸血症间的关联关系,探索重金属之间的交互作用,从而为控制重金属的内暴露水平,制定高尿酸血症的防治措施提供科学依据。方法:本研究的数据来源于“老年健康生物标志物队列研究”第三次(2017~2018年)随访调查。采用问卷调查结合体格检查和生物样本采集与检测的方式,完成数据的收集。根据血尿酸水平定义高尿酸血症,利用Spearman秩相关分析重金属水
目的:布鲁氏菌病简称布病,是人畜共患传染病,可导致全身多系统损伤。易于复发、转为慢性而具有较重的疾病负担。尽管布病患者死亡率低,但仍伴有慢性非传染性疾病(NCDs)的风险因素。血脂异常是NCDs的重要危险因素,其中总胆固醇与高密度脂蛋白胆固醇比值(TC/HDL-C)对NCDs发生与结局有强预测作用。传染病患者血脂异常率显著高于健康人群,但对于TC/HDL-C的报告较少,布病患者血脂异常率也较高。因
羊栖菜(Sargassum fusiforme)是我国主要的经济食用海藻之一,具有丰富的生物活性。课题组前期研究发现,羊栖菜多糖具有显著的抗光老化活性,但其结构与抗光老化活性之间的关系尚不明确。基质金属蛋白酶(MMPs)能特异性降解细胞外基质,使皮肤产生皱纹和松弛,导致皮肤的光老化,常被用来评估皮肤的光老化程度。因此,本文分别采用UV/H2O2、藻酸盐裂解酶和0.1 M盐酸修饰羊栖菜纯化多糖P1的
金黄色葡萄球菌(Staphylococcus aureus,S.aureus)是肉及肉制品中常见的食源性致病菌,对食品安全和消费者身体健康带来严重威胁,因此肉及肉制品中S.aureus的减控对保障食品安全十分重要。本文通过体外抑菌实验研究了香茅醛(citronellal,CIT)对S.aureus的抑菌效果及机理,并探究了CIT对S.aureus产肠毒素及溶血活性的影响及可能的作用机理。此外,将C
空肠弯曲杆菌(Campylobacter jejuni,C.jejuni)是常见的人畜共患病原菌,其致病剂量低,会引起肠胃病和吉兰-巴雷综合征等,因此需要对该病原菌进行有效控制。本文首先确定了天然植物抗菌剂表没食子儿茶素没食子酸酯(Epigallocatechin-3-gallate,EGCG)对空肠弯曲杆菌的抗菌活性,然后探究了EGCG对空肠弯曲杆菌的体外抗菌效应及其对细菌运动性和生物被膜的影响