论文部分内容阅读
背景与目的:随着世界人口老龄化的加重,骨质疏松作为一个公共卫生问题,逐渐变得更加值得注意,骨质疏松症是由于骨组织数量的减少和骨的微结构退化,从而引起骨骼强度下降的一种疾病,往往会增加骨折风险。骨矿物质密度(Bone Mineral Density,BMD)是目前诊断骨质疏松症的金标准。多项流行病学研究表明,随着BMD下降,骨折风险增加。骨质健康受多种因素的影响。目前确认的骨质疏松危险因素包括骨折史、低身体质量指数(Body Mass Index,BMI)、影响骨代谢的药物治疗、影响骨骼代谢的疾病、长期吸烟及过量饮酒、过量咖啡因摄入等。此外,也有一些流行病学研究表明了骨质疏松以及BMD和一些人体生化指标有关,包括血糖、血脂、肝功能、肾功能、性激素等指标,但是这些研究往往存在一些问题,样本和指标范围比较局限,且观察性研究面对无法估计因果关系的缺点。骨质疏松作为一种慢性病,并且会引起骨折这一较为严重的后果,对骨质疏松症的筛查及对骨量减少的预警是十分必要的。广泛进行BMD的检查并不是目前开发的骨质疏松筛查工具大多局限于高风险人群,根据年龄、BMI、女性的绝经状态等公认的危险因素进行筛查,且大多数不是基于中国人,这些工具的筛查效果还有很大进步空间。基于以上背景,我们进行三分部研究,第一部分建立基于中国普通成年人的多中心骨质健康数据库,并以此研究多种血液生化指标与骨质健康之间的相关关系。第二部分采用孟德尔随机化(Mendelian Randomization,MR)方法研究循环性激素结合球蛋白(Sex Hormone-Binding Globulin,SHBG)浓度对BMD的影响,观察两者的因果关系。第三部分以多中心骨质健康数据库为基础,采用极限梯度提升(e Xtreme Gradient Boosting,XGBoost)算法,建立一个针对中国普通且基本健康人群,以血液生化指标筛查骨质疏松症的模型(Biochemical Indicators Screening Osteoporosis Based on XGBooost,BISOBX),帮助筛查无明显危险因素的人群的骨质疏松症。方法:第一部分:搜集5个医疗中心普通社区人群的健康检查数据,选取具有BMD检查的数据记录,并建立多中心骨质健康数据库,在排除明显影响骨代谢的因素后作为我们的研究人群,选取12种生化指标作为目标:空腹血糖(Fasting Plasma Glucose,FPG)、血清尿酸(Uric Acid,UA)、血清钙(Calcium,CA)、血清碱性磷酸酶(Alkaline Phosphatase,ALP)、谷丙转氨酶(Alanine aminotransferase,ALT)、谷草转氨酶(Aspartate aminotransferase,AST)、甘油三酯(Triglycerides,TG)、总胆固醇(Total Cholesterol,TC)、高密度脂蛋白胆固醇(High Density Lipoprotein cholesterol,HDL-c)、总胆红素(Total bilirubin,TBIL)、血清白蛋白(Albumin,ALB)以及基于血清肌酐(Creatinine,Cr)计算的肾小球滤过率(estimated Glomerular Filtration Rate,e-GFR),以BMD和骨质疏松(或骨量减少)为结局,以年龄、BMI、血压等基线特征为混杂因素,分析各个生化指标与骨质健康之间的相关关系。并根据年龄和性别的不同分别进行亚组分析,分析在总体、男性、女性、50岁以上男性、绝经后女性中各生化指标与骨质健康之间的关系。第二部分:采用孟德尔随机化方法,以循环SHBG浓度为暴露,BMD为结局,借助工具变量单核苷酸多态性(Single Nucleotide Polymorphism,SNP)研究暴露和结局之间的因果关系。暴露和结局的关联SNP汇总数据来自几个大型全基因组关联研究(Genome-Wide Association Studies,GWAS)的荟萃研究,这些GWAS研究大多基于欧洲人。结局共有9个,分别是四个不同骨骼部位的BMD,包括前臂(Forearm,FA),股骨颈(Femoral Neck,FN),腰椎(Lumbar Spine,LS)和足跟(Heel,HL),以及五个不同年龄段的全身BMD,包括15岁以下、15-30岁、30-45岁、45-60岁和60岁以上。主体分析采用固定效应逆方差加权(Inverse-Variance Weighted,IVW)法,敏感性分析采用加权中位数(Weighted median)分析,以及去除少部分SNP后的IVW分析。利用MR-Egger分析的截距项检验定向多效性,并采用采用MR-PRESSO(Mendelian Randomization Pleiotropy Residual Sum and Outlier)方法检验水平多效性。第三部分:基于多中心骨质健康数据库中我们纳入排除后的研究人群,以80%和20%的比例随机划分为训练集和测试集,以是否骨质疏松为响应变量,在生化指标和基线特征中筛选对骨质疏松具有预测效应的预测变量,采用XGBoost(e Xtreme Gradient Boosting)在内的三种不同类型的机器学习算法建立筛查模型,另外两种算法为持向量机(Support Vector Machine,SVM)和简单的人工神经网络(Artificial Neural Network,ANN),对比基于XGBoost算法的模型BISOBX和其他两种算法的筛查效果。采用训练集数据进行模型的训练,并在训练集和测试集中分别进行模型的回判和内部测试。筛查效果的评估方法包括分类器混淆矩阵及其衍生的相关指标,以及受试者工作特征(Receiver Operating Characteristic,ROC)曲线、精确率与召回率(Precision-Recall,PR)曲线和相应的曲线下面积(Area Under Curve,AUC)。针对亚洲绝经后妇女的传统筛查工具,即亚洲人骨质疏松自评工具(Osteoporosis Self-assessment Tool for Asian,OSTA),与BISOBX在适合的人群中进行筛查效果的对比。结果:第一部分:各生化指标及基线特征与BMD的偏相关系数(Partial correlation coefficient,PCC)显示,年龄在总体(PCC=-0.228)、女性(PCC=-0.504)及绝经后女性(PCC=-0.477)中,是相对最重要的负相关变量,而在男性中其相对重要性很弱(PCC=-0.031)。ALP是总体和所有亚组中相对最重要的生化指标变量(PCC分别为-0.223,-0.130,-0.245,-0.151,-0.237)。FPG作为正相关变量,在总体和所有亚组中都具有一定的相对重要性,但在总体和男性中,e-GFR(PCC分别为0.064和0.060)的相对重要性超过FPG(PCC分别为0.055和0.043)。总体的多元多因素logistic回归分析中,FPG对于骨量减少和骨质疏松的相对危险度(Odd Ratio,OR)值及95%置信区间(Confidence Interval,CI)分别为0.926(0.885,0.969)和0.839(0.757,0.929);UA对于骨量减少和骨质疏松的OR(95%CI)分别为0.921(0.876,0.968)和0.601(0.533,0.679);e-GFR对于骨量减少和骨质疏松的OR(95%CI)分别为0.705(0.671,0.741)和0.759(0.682,0.845);TC对于骨量减少和骨质疏松的OR(95%CI)分别为1.115(1.061,1.172)和1.297(1.168,1.440);ALP对于骨量减少和骨质疏松的OR(95%CI)分别为1.522(1.452,1.596)和1.789(1.644,1.946)。在男性和女性的多元多因素logistic回归分析中,UA和ALP都是对于骨量减少和骨质疏松的独立相关因素。在男性中,HDL-c对于骨量减少(OR=1.133,95%CI:1.064-1.206)和骨质疏松(OR=1.218,95%CI:1.053-1.410)具有显著的正相关性;ALB对于骨量减少(OR=0.869,95%CI:0.816-0.925)和骨质疏松(OR=0.805,95%CI:0.686-0.945)具有显著的负相关性;e-GFR对于骨量减少(OR=0.588,95%CI:0.552-0.625)和骨质疏松(OR=0.508,95%CI:0.429-0.602)具有显著的负相关性。在女性中,FPG对于骨量减少(OR=0.916,95%CI:0.848-0.991)和骨质疏松(OR=0.790,95%CI:0.680-0.919)具有显著的负相关性。除此以外,FPG在男性中表现为骨量减少的显著负相关因素(OR=0.932,95%CI:0.880-0.988),而TG和TC则表现为骨量减少的显著正相关因素,OR(95%CI)分别为1.136(1.068,1.208)和1.068(1.004,1.137)。在女性中,TC表现为骨质疏松的正相关因素(OR=1.279,95%CI:1.092-1.497),而CA表现为骨量减少的正相关因素(OR=1.148,95%CI:1.043-1.264)。第二部分:IVW分析中,SHBG水平与FA BMD(效应值=-0.26,P=0.022)及HL BMD(效应值=-0.09,P=3.19×10-9)呈负相关的因果关系,但对于FN BMD和LS BMD则没有显著关联。在45至60岁(效应值=-0.16,P=0.047)和大于60岁的参与者(效应值=-0.19,P=0.006)中,SHBG水平与全身BMD之间存在负相关的因果关系,随着年龄的增长,SHBG水平与全身BMD的因果关系逐渐变得显著,没有证据显示45岁以下的参与者SHBG水平和全身BMD有因果关系。加权中位数方法的分析中,SHBG水平与FA BMD(效应值=-0.40,P=0.005)以及HL BMD(效应值=-0.09,P=8.93×10-6)有负相关的因果关系,但是在五个年龄阶段的全身BMD分析中,SHBG水平对45岁以上参与者的全身BMD无显著因果关系。在去除2个SNP后的IVW分析中,SHBG水平对FA(效应值=-0.25,P=0.034)和HL(效应值=-0.07,P=1.28×10-5)处的BMD有显著的负向因果关系。MR-Egger分析没有显示存在定向多效性,MR-PRESSO分析则显示两个结局(HL BMD和45-60岁全身BMD)的分析中存在水平多效性,去除离群SNP后的结果表明SHBG水平与HL BMD存在负相关的因果关系(效应值=-0.08,P=0.001)。第三部分:变量筛选中去除了TBIL和血压这两个变量,其余生化指标及基线特征都在总体或男性(女性)中表现出对骨质疏松的预测效应。BISOBX在训练集回判和测试集预测中都表现出来极强的筛查效果,其ROC曲线表现分别为(AUC=0.996,95%CI:0.995-0.997,P<0.001)和(AUC=0.996,95%CI:0.995-0.997,P<0.001)。由于骨质疏松患病率导致的样本不均衡的原因,PR曲线表现不如ROC曲线,其AUC分别为0.890和0.729。BISOBX比基于SVM和ANN算法的模型有更高的曲线下面积,且在0.5的截断值下有更高的敏感度(训练集:99.77%;测试集:97.62%)和特异度(训练集:93.97%;测试集:93.81%)。在针对绝经后女性的骨质疏松筛查中,BISOBX(AUC=0.965,95%CI:0.955-0.974,P<0.001)比OSTA(AUC=0.755,95%CI:0.723-0.787,P<0.001)的筛查效果好很多。BISOBX筛查模型最重要的变量是年龄,重要性占比23.06%,其次依次为e-GFR、ALP、UA、BMI和HDL-c,重要性占比分别为11.69%、10.03%、9.18%、6.40%和5.13%,其余变量重要性占比在5%以下。结论:第一部分:正常范围内,较高水平的血清尿酸或血糖与较高的BMD有关,且和较低风险的骨量减少及骨质疏松有关。高水平的血清钙可能和女性低骨量有关。血清碱性磷酸酶的升高可能与高水平的骨代谢、骨转换或者骨质疏松有关。高甘油三酯和总胆固醇水平一定程度上影响着男性和女性的骨质健康。高水平的高密度脂蛋白胆固醇和低水平的白蛋白可能与男性低骨量有关。在肝功能正常的人群中,没有证据表明血清总胆红素水平和骨质疏松之间存在显著关联。肾小球滤过率与骨量呈显著正相关。第二部分:循环SHBG浓度可能与BMD之间存在关联,一定程度上对BMD起到负面作用。SHBG水平与FA BMD有显著的负向因果关系,且在敏感性分析中表现稳健。SHBG水平与HL BMD有显著的负向因果关系,且在去除水平多效性后依然显著。SHBG水平与45岁以上人群的全身BMD之间可能存在负相关的因果关系,需要进一步确认。几乎没有证据表明SHBG水平与FN、LS以及45岁以下参与者的全身BMD有因果关系。第三部分:BISOBX对于我们的研究人群(中国基本健康的普通社区人群)有很好的筛查骨质疏松的效果,基于血液生化指标的筛查使得BISOBX适用于更广泛的人群,不仅仅局限于存在高危因素的人群。BISOBX比SVM和ANN算法建立的筛查模型有更好的表现。即使在绝经后女性中,BISOBX相较于传统骨质疏松筛查工具OSTA可以更准确地筛查骨质疏松患者,在骨质疏松筛查这一领域做出了一些填补。