论文部分内容阅读
研究背景:胃食管反流病(Gastroesophageal reflux disease,GERD)以烧心和反酸为主要的特征性症状,在西方国家人群中是一种常见的胃肠疾病。已有研究结果表明,亚洲人群的GERD发病率较西方人群低,但目前西方及亚洲人群的GERD发病率都呈现增长的趋势。GERD患者不仅容易合并其他食管合并症,而且患食管腺癌的危险也大大增加。GERD不仅使患者的生活质量受到显著影响,还给患者造成了较大的经济负担。因此,西方多个国家的研究者对于GERD发病情况及其影响因素进行了流行病学调查研究。然而,在中国,人们对于GERD的认知程度还比较低,对其危害还没有足够的认识;而针对GERD的基于中国一般人群采用国际标准化量表进行的高质量流行病学调查也非常有限。为了调查GERD在中国一般人群的症状患病情况,研究其影响因素的相关信息,我们在中国大陆进行了一项大规模的GERD流行病学调查。本调查采用多阶段分层随机抽样的方法和自填式的问卷调查方式,共在上海、北京、武汉、西安和广州五个城市获得有效调查问卷16078份。本调查收集的资料丰富,且数据存在明显的层次结构特征,并包含一定的缺失值。而传统统计方法对于此类数据的处理存在明显的局限性,如要求各观察值相互独立、无缺失值等。研究目的:为了克服传统统计方法的局限性,本研究探讨了联合应用关联规则和多水平模型,以更加科学、合理的分析和挖掘中国大陆GERD流行病学调查资料,研究和筛选GERD的影响因素,以提高人们对GERD的认知程度,为GERD的早期预防和治疗提供一定的理论依据。研究方法:关联规则挖掘算法作为数据挖掘中的一种经典算法,具有较强的处理不完整数据的能力,可以充分发现隐藏在数据中的未知的、新颖的模式,对数据的整体理解和进一步分析提供参考。采用关联规则挖掘算法不仅可以减少缺失值的影响,而且还可以发现那些潜在的影响因素,及其相互之间的关系和对GERD的联合作用,并为随后的多水平模型建模时解释变量的选择提供依据。多水平模型是国外近些年发展起来的处理多水平数据的一种多元统计方法,已广泛应用于多个领域。多水平数据的组群间具有一定的组间异质性,即存在一定的组内同质性,不符合多元线性回归等传统统计方法要求各观察单位相互独立的假设,而多水平模型则克服了传统统计方法的局限性,减少了估计偏倚。因此,本研究在关联规则初步挖掘出的GERD影响因素的基础上,采用多水平模型建模,以解决传统统计方法因忽略数据的层次结构所带来的问题,更科学的揭示GERD的影响因素。研究结果:本研究系统总结了关联规则挖掘的基本理论和主要算法,以及规则有趣性的度量方法。然后,利用SAS/EM中经典的Apriori算法进行了关联规则挖掘。规则产生后,首先采用模板匹配的方式进行规则的初步筛选,再通过将可信度的提高倍数定为0.05的方法进行多项规则的剪除,最后根据常用的客观度量指标的相关性分析结果,选择了Lift值、PS值、Interest值、Fitness函数、列联系数、Fisher确切概率6个度量指标进行规则有趣性的度量。根据最终选取的规则,本研究发现调查点、调查区域(城市、农村)、性别、年龄、吸烟、饮酒、婚姻状况、家庭月收入、职业、健康状况、文化程度、精神状况、体力活动或体育锻炼、胃肠疾病或肿瘤家族史等被调查者基本信息,部分既往患病史(如消化不良、慢性胃炎、风湿性关节炎、慢性咽喉炎、腹部手术史等),以及肠易激综合征、吞气症、非特异性肠功能紊乱等现患疾病对胃食管反流症状有影响。总之,本研究利用关联规则挖掘算法,不仅对GERD的影响因素有了初步的了解,而且为后续的多水平模型建模时解释变量的选择提供了参考。然后,本研究系统回顾了多水平模型的基本理论和建模步骤,以及残差自助法多水平模型的建模方法。通过对GERD流行病学调查数据结构特征的分析,最终确定以街道(乡镇)为水平2单位,以居民为水平1单位,拟合两水平的多水平模型。本研究通过“拟合空模型→将水平2解释变量“调查点”纳入空模型→采用前进法筛选纳入水平1解释变量→检验水平1解释变量的随机斜率→检验跨层交互作用”这五个步骤,建立了本研究的最终模型。另考虑到本研究水平2组群数相对较少,且水平1残差e ij不服从正态分布,不符合最大似然法的应用假设,故本研究又基于最终模型分别采用非参数和参数残差自助法进行模型拟合,以减少模型拟合造成的偏倚。研究结果表明,非参数法和参数法的拟合结果多数与原始样本比较接近,只是参数法的标准误相对较非参数法稍大,尤其是水平1残差方差σ? 2的标准误远远大于非参数法和原始样本,与我们的理论假设是一致的。原因在于,原始样本的水平1残差eij不服从正态分布,非参数法考虑了这一点,而参数法则假设其服从正态分布。总之,多水平模型分析结果显示,与广州相比,上海、北京和西安居民的GERD总评分没有明显的差异,而武汉居民的GERD总评分则相对较高,即表示武汉的GERD发病率在5个调查城市中相对较高;居民的总体健康状况越差,其GERD总评分越高,且其对GERD总评分的影响受到武汉与广州之间地域差异的影响;农村居民、文化程度越低、精神状况越差者更容易患GERD;另外,那些有胃肠道疾病或肿瘤家族史,既往患有胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,患GERD的可能性更大,而性别、年龄等因素,本研究未发现其与GERD有显著的关系。而上述结论中,除了未发现城市居民和农村居民在GERD发病方面有显著差异之外,非参数法和参数法的其他结论与原始样本基本一致。研究结论:本研究采用国际规范的标准化量表,在中国大陆进行了截至目前为止规模最大的一次GERD流行病学调查,建立了中国大陆GERD流行病学调查数据库,并深入分析了GERD的影响因素。结果表明,在调查的五个城市中武汉的GERD发病情况最重;农村居民、文化程度越低、健康状况和精神状况越差者,以及有胃肠道疾病或肿瘤家族史的人更可能患GERD;而那些既往患有慢性胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,同样也更可能患GERD。而性别、年龄、吸烟、饮酒、家庭收入、婚姻状况、职业、体力活动或体育锻炼等因素,以及慢性咽喉炎、腹部手术史和非特异性肠功能紊乱等疾病可能也与GERD有关联关系。总之,本研究首次将关联规则挖掘技术和多水平模型联合应用于GERD流行病学调查资料的分析,克服了传统统计方法的局限性,更科学的研究和评价了GERD的影响因素,提高了人们对于GERD的认知程度,为更好地防治GERD提供了一定的理论依据。而本研究所进行的多水平模型和关联规则挖掘技术的联合应用研究对于其他流行病学调查资料的分析在方法学方面亦有一定的参考价值。