论文部分内容阅读
目的:非酒精性脂肪肝(Non-alcoholic fatty liver disease,NAFLD)在我国的患病率已经超过30%,且该疾病可能导致肝炎、肝硬化等一系列严重的并发症。面对我国不断升高的NAFLD患病率,早发现、早诊断、早治疗是主要的公共卫生手段。慢性炎症与NAFLD的发病密切相关,常见的炎症指标可能是NAFLD的良好预测因子。本研究第一部分以大样本健康体检人群为研究对象,使用成组病例对照的研究方法,探讨白细胞计数(White blood cell,WBC)、淋巴细胞计数(Lymphocyte,LYM)、中性粒细胞计数(Neutrophil,NEU)、单核细胞计数(Monocyte,MONO)、血小板计数(Platelet,PLT)、中性粒细胞与淋巴细胞比例(Neutrophil-to-lymphocyte ratio,NLR)、单核细胞与淋巴细胞比例(Monocyte-to-lymphocyte ratio,MLR)、和血小板与淋巴细胞比例(Platelet-to-lymphocyte ratio,PLR)与NAFLD患病风险之间的关联。本研究第二部分以大样本体检人群为研究对象,基于血液炎症指标以及人口学特征、生活行为习惯、血清学指标,通过机器学习的方法建立多种NAFLD患病预测模型,并对模型进行评价,为NAFLD的预测提供最佳方法。方法:第一部分:基于国家重点研发计划——精准医学研究重点专项课题“社区人群队列”的延伸队列,从南宁市第二人民医院和玉林市第一人民医院的体检中心收集的基线人群作为研究对象。选择符合NAFLD诊断标准的人群作为病例组,不符合NAFLD诊断标准的人群作为对照组。比较两组人群的一般人口学特征及常见血液学指标的分布差异,对计量资料采用秩和检验,对计数资料采用卡方检验。基于Logistic回归分析,分别使用原始数据和四分位数分组计算WBC、LYM、NEU、MONO、PLT、NLR、MLR、PLR与NAFLD患病风险之间的关联性。随后,采用限制性立方样条结合Logistic回归分析的方法,探索是否存在非线性关联及剂量反应关系。同时,分别对不同地区、年龄或BMI的人群进行分组,来探索各亚组人群中炎症细胞计数指标与NAFLD之间的关联。第二部分:在第一部分的基础上,增加桂林市公安局体检人群数据作为本部分研究对象。采用与第一部分相同的纳入排除和诊断标准,将人群分为NAFLD组和正常组。将对来自南宁市第二人民医院与玉林市第一人民医院的研究对象按照7:3的比例随机分到训练集和验证集,同时选择来自桂林市公安局的研究对象作为测试集。在训练集中,采用Lasso回归进行特征筛选,随后建立Logistic回归(Logistic regression,LR)、多元自适应回归样条方法(Multivariate adaptive regression splines,MARS)、随机森林(Random forest,RF)、支持向量机(Support vector machine,SVM)和人工神经网络(Artificial neural network,ANN)模型来对NAFLD患病状态进行预测。采用受试者工作特征曲线下面积和F1分数来评价模型的预测效能,从而选择最佳模型,并评估模型中变量的贡献程度。结果:第一部分:本部分总共纳入5758例对象,其中病例组2248例,正常组3510例。WBC、NEU、LYM、MONO、PLT、NLR、MLR在两组之间的分布均存在差异(P<0.05),但PLR在两组之间的分布不存在统计学差异(P=0.242)。在调整了组间分布不均的各项因素后,多因素Logistic回归分析结果表明:与四分位最低组相比,WBC、NEU、LYM、MONO、PLT计数水平的四分位最高组NAFLD患病风险OR值及其95%置信区间分别为1.68(1.46-1.93)、1.37(1.19-1.57)、1.71(1.48-1.97)、1.60(1.38-1.86)和1.75(1.52-2.02),且存在线性趋势关系(Ptrend<0.05)。在不同地区、年龄、BMI的亚组分析中也得到相同的结果。其中,NLR水平与NAFLD患病风险存在非线性关联(Pnon-linear=0.036),当NLR<3时,随着NLR水平升高,NAFLD患病风险先增加后稳定。MLR、PLR水平与NAFLD的患病风险增加既不存在线性关联(P>0.05),也不存在非线性关联(Pnon-linear>0.05)。第二部分:本部分研究训练集纳入4050个研究对象,验证集纳入1708个研究对象,测试集纳入215个研究对象,三组的患病率分别为38.86%、39.46%和25.6%。将一般人口学特征、生活行为习惯、血清学和血液学指标纳入Lasso模型,最终有18个指标符合建模要求,分别为:WBC、PLT、MONO、年龄、BMI、ALT、TG、TC、HDL-C、FG、CREA、UA、DVS、民族(壮族)、高血压史(是)、性别(男性)、吸烟(是)、运动(是)。在五种不同的机器学习模型(LR、MARS、RF、SVM和ANN)中,MARS模型在验证集(AUC=87.2%,F1=75.0%)和测试集(AUC=88.7%,F1=69.2%)中的表现最优。在最优模型中,变量的贡献程度依次是:BMI、TG、性别(男)、ALT、MONO、年龄、FG、UA、CREA、PLT、吸烟(是)和HDL-C。结论:本研究发现(1)五种炎症细胞(WBC、NEU、LYM、MONO、PLT)的计数水平为NAFLD患病的危险因素,且NAFLD患病风险随着炎症细胞计数水平的升高而升高。当NLR<3时,NAFLD患病风险随着NLR水平升高先上升后平稳。(2)以人口学特征、生活行为习惯、血清学指标、血液学指标建立的MARS模型对NAFLD具有良好预测作用,其中MONO、PLT两个炎症细胞计数在模型中起到较重要的作用。