论文部分内容阅读
目的:参考区间(Reference Interval,RI)对于诠释临床检验项目的结果有着重要的价值,目前建立RI的方法主要分为“直接法”和“间接法”。近年来,随着信息技术的发展,基于真实世界数据的“间接法”由于其成本低、便捷、可行性高而受到越来越多的关注。然而,目前缺少基于临床实验室大数据建立RI的指南,这无疑阻碍了临床实验室工作者使用该方法。本研究团队在之前的研究中验证了基于体检人群仅使用临床实验室数据建立甲状腺相关激素RI的可行性。在此研究的基础上,本研究将从样本量估计、分区分析、间接法建立RI以及拟合年龄相关连续RI模型四个层面,探索估计RI样本量的方法,评价经典RI分区方法,并比较不同的“间接法”对甲状腺相关激素建立RI的适用性,基于真实世界数据探索并比较建立甲状腺相关激素的连续性年龄相关RI模型的方法,为各个临床实验室基于真实世界数据建立甲状腺相关激素或者相似分布的检验项目的RI提供流程和方法层面的理论依据。方法:基于北京协和医院2014年至2018年体检数握库,按照严格入排标准纳入参考个体,建立参考数据集。基于同质化的体检数据池,在剔除甲状腺过氧化物酶抗体(thyroid peroxidase antibody,TPO-Ab)和甲状腺球蛋白抗体(thyroglobulin antibody,TG-Ab)阳性的个体以及采用Tukey法剔除异常值后随机抽取同参考数据集等量的数据,建立体检数据集1。在上步剔除异常值后校正数据集性别、年龄组间比例后随机抽取同参考数据集等量的数据,建立体检数据集2。2014年至2018年体检数据库中进行甲状腺相关检测的全部个体构成体检数据集3。基于2016年门诊数据库,纳入进行甲状腺相关激素检查的所有个体,采用Tukey法剔除极端异常值后建立门诊数据集。外部验证数据集由120名甲状腺功能正常的健康人组成。基于上述数据集进行以下四部分研究。第一部分研究:分别基于参考数据集和体验数据集1和2,采用自建的样本量估计方法计算建立甲状腺相关激素RI所需的样本量。并采用Bland-Altman分析比较转换参数法和非参数法在不同样本量下建立的RI上限和下限的差异。第二部分研究:分别基于参考数据集和体检数据集1和2,采用多因素线性回归确定年龄、性别、季节因素对于甲状腺相关激素的层级,并以此进行嵌套设计计算对应因素的方差成分。采用标准差比率法(standard deviation ratio,SDR)计算年龄、性别、季节因素的SDR,SDR>0.3提示按照该因素分区。对于SDR>0.3的因素,比较分区后RI的差异,若上限或下限的差异比值大于0.375,则明确需要按照该因素分区。比较三个数据集分区的最终结果。第三部分研究:基于参考数据集、体检数据集1和2,使用标准转换参数法建立甲状腺相关激素的RI。基于门诊数据集和体检数据集3,采用Hoffmann、Bhattacharya法、期望最大化算法以及截断最大似然估计参数法计算甲状腺相关激素的RI。比较不同算法建立的RI。此外,使用不同算法建立的RI判断验证集中个体的甲状腺相关激素的结果,计算落在RI外的比例(falling out reference interval,FOR),若FOR值小于10%,则RI通过验证。第四部分研究:将体检数据集2按照7:3的比例拆分为训练集和测试集。基于训练集,使用分数多项式回归、分段多项式回归、LMS法以及基于位置、尺度和形状的广义可加模型(Generalized Additive Models for Location,Scale and Shape,GAMLSS)建立甲状腺相关激素年龄特异性的RI模型。采用施瓦兹的贝叶斯判别准则(Schwarz Bayesian criterion,SBC)评价模型的拟合优度,采用多重蠕虫图确定模型拟合欠佳的解释变量区间,并根据蠕虫图的形状对相应的模型进行调整。在建立模型后,使用建立的模型,判断测试集中对应年龄的个体的检测结果,计算FOR值。若FOR值小于10%,则认为该年龄特异性的参考区间模型通过验证,反之则不通过。结果:第一部分研究:非参数法建立RIs的样本量普遍比转换参数法大。使用三个数据集,计算建立甲状腺相关激素RIs的样本量略有差异。在小于估计值前的样本量集中转换参数法和非参数法的一致性要劣于估计值后样本量集。第二部分研究:多因素线性回归提示性别因素对甲状腺相关激素影响最大。基于嵌套设计,三个数据集游离三碘甲状腺原氨酸(free triiodothyronine,FT3)和血清游离甲状腺素(freethyroxine,FT4)分区分析中,性别因素的SDR均大于0.3,且按性别分区后,RIs上限或下限的差异比大于0.375,明确FT3和FT3的RIs应该按照性别分区。而其他甲状腺相关激素的RIs不需要分区。三个数据集分区分析结果一致。第三部分研究:使用参考数据集,体检数据集1和2的转换参数法、Hoffmann法、Bhattacharya法、期望最大化算法以及截断最大似然估计参数法建立的甲状腺相关激素的RIs均比厂商说明中的RIs以及协和医院检验科(Peking Union Medical College Hospital laboratory,PUMCHlab)正在使用的RIs窄。在外部验证中,厂商说明中的RIs以及PUMCHlab的RIs的FOR值绝大部分为0.0%。基于参考数据集,体检数据集1和2的转换参数法以及基于门诊数据集的Hoffmann法、Bhattacharya法、期望最大化算法以及截断最大似然估计参数法对应的FOR值小于10%。基于体检数据集Hoffmann、Bhattacharya法、期望最大化算法以及截断最大似然估计参数法因混合数据分布特点不明显而分离效果较差。Bhattacharya法和截断最大似然估计参数法男性FT3 RIs的FOR值大于10%。Hoffmann和Bhattacharya法估计的TSH的RIs下限为负值。相较于其他间接法,基于体检数据集1和2的转换参数法建立的RIs和基于参考数据集建立的RIs的一致性较好。第四部分研究:分数多项式回归、分段多项式回归、LMS法以及GAMLSS模型拟合的甲状腺相关激素随年龄变化的规律大致相同,即TSH RIs上限呈现随年龄增长而呈现升高趋势。男性FT3和FT4呈现随年龄增长而单调下降的趋势。女性FT3水平随年龄增长波动式下降。女性FT4呈现先下降后轻微升高的趋势。TT3和TT4变化不明显。在内部测试中,所有模型FOR值均小于10%,且测试数据落在参考区间上限外(falling out upper limits of reference interval,FORU)和下限外(falling out lower limits of reference interval,FORL)的比例接近2.5%。除小部分模型的老年段的残差散点均值较高或出现S型外,大部分模型拟合较好。且对于同一激素不同模型的SBC值差异较小。结论:1.本研究建立了用于估计建立RIs样本量的方法,可用于估计建立包括甲状腺相关激素在内的检验项目的RIs的样本量。2.基于大数据使用嵌套方差设计进行分区分析是可行的,且两种计算SDR的算法分析结果一致;3.若仅使用体检数据,建议采用剔除TPO-Ab和TG-Ab抗体阳性个体和异常值的方法建立甲状腺相关激素的RIs;若使用门诊数据,建议使用期望最大化算法估计参数法;4.推荐使用GAMLSS模型建立甲状腺相关激素年龄特异性参考区间模型;5.本研究建立基于临床实验室大数据建立甲状腺相关激素或类似分布的检验项目的参考区间的流程,为其他临床实验室提供理论依据和方法学参考。