多水平模型和关联规则联合研究胃食管反流病影响因素

被引量 : 7次 | 上传用户:king_wda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:胃食管反流病(Gastroesophageal reflux disease,GERD)以烧心和反酸为主要的特征性症状,在西方国家人群中是一种常见的胃肠疾病。已有研究结果表明,亚洲人群的GERD发病率较西方人群低,但目前西方及亚洲人群的GERD发病率都呈现增长的趋势。GERD患者不仅容易合并其他食管合并症,而且患食管腺癌的危险也大大增加。GERD不仅使患者的生活质量受到显著影响,还给患者造成了较大的经济负担。因此,西方多个国家的研究者对于GERD发病情况及其影响因素进行了流行病学调查研究。然而,在中国,人们对于GERD的认知程度还比较低,对其危害还没有足够的认识;而针对GERD的基于中国一般人群采用国际标准化量表进行的高质量流行病学调查也非常有限。为了调查GERD在中国一般人群的症状患病情况,研究其影响因素的相关信息,我们在中国大陆进行了一项大规模的GERD流行病学调查。本调查采用多阶段分层随机抽样的方法和自填式的问卷调查方式,共在上海、北京、武汉、西安和广州五个城市获得有效调查问卷16078份。本调查收集的资料丰富,且数据存在明显的层次结构特征,并包含一定的缺失值。而传统统计方法对于此类数据的处理存在明显的局限性,如要求各观察值相互独立、无缺失值等。研究目的:为了克服传统统计方法的局限性,本研究探讨了联合应用关联规则和多水平模型,以更加科学、合理的分析和挖掘中国大陆GERD流行病学调查资料,研究和筛选GERD的影响因素,以提高人们对GERD的认知程度,为GERD的早期预防和治疗提供一定的理论依据。研究方法:关联规则挖掘算法作为数据挖掘中的一种经典算法,具有较强的处理不完整数据的能力,可以充分发现隐藏在数据中的未知的、新颖的模式,对数据的整体理解和进一步分析提供参考。采用关联规则挖掘算法不仅可以减少缺失值的影响,而且还可以发现那些潜在的影响因素,及其相互之间的关系和对GERD的联合作用,并为随后的多水平模型建模时解释变量的选择提供依据。多水平模型是国外近些年发展起来的处理多水平数据的一种多元统计方法,已广泛应用于多个领域。多水平数据的组群间具有一定的组间异质性,即存在一定的组内同质性,不符合多元线性回归等传统统计方法要求各观察单位相互独立的假设,而多水平模型则克服了传统统计方法的局限性,减少了估计偏倚。因此,本研究在关联规则初步挖掘出的GERD影响因素的基础上,采用多水平模型建模,以解决传统统计方法因忽略数据的层次结构所带来的问题,更科学的揭示GERD的影响因素。研究结果:本研究系统总结了关联规则挖掘的基本理论和主要算法,以及规则有趣性的度量方法。然后,利用SAS/EM中经典的Apriori算法进行了关联规则挖掘。规则产生后,首先采用模板匹配的方式进行规则的初步筛选,再通过将可信度的提高倍数定为0.05的方法进行多项规则的剪除,最后根据常用的客观度量指标的相关性分析结果,选择了Lift值、PS值、Interest值、Fitness函数、列联系数、Fisher确切概率6个度量指标进行规则有趣性的度量。根据最终选取的规则,本研究发现调查点、调查区域(城市、农村)、性别、年龄、吸烟、饮酒、婚姻状况、家庭月收入、职业、健康状况、文化程度、精神状况、体力活动或体育锻炼、胃肠疾病或肿瘤家族史等被调查者基本信息,部分既往患病史(如消化不良、慢性胃炎、风湿性关节炎、慢性咽喉炎、腹部手术史等),以及肠易激综合征、吞气症、非特异性肠功能紊乱等现患疾病对胃食管反流症状有影响。总之,本研究利用关联规则挖掘算法,不仅对GERD的影响因素有了初步的了解,而且为后续的多水平模型建模时解释变量的选择提供了参考。然后,本研究系统回顾了多水平模型的基本理论和建模步骤,以及残差自助法多水平模型的建模方法。通过对GERD流行病学调查数据结构特征的分析,最终确定以街道(乡镇)为水平2单位,以居民为水平1单位,拟合两水平的多水平模型。本研究通过“拟合空模型→将水平2解释变量“调查点”纳入空模型→采用前进法筛选纳入水平1解释变量→检验水平1解释变量的随机斜率→检验跨层交互作用”这五个步骤,建立了本研究的最终模型。另考虑到本研究水平2组群数相对较少,且水平1残差e ij不服从正态分布,不符合最大似然法的应用假设,故本研究又基于最终模型分别采用非参数和参数残差自助法进行模型拟合,以减少模型拟合造成的偏倚。研究结果表明,非参数法和参数法的拟合结果多数与原始样本比较接近,只是参数法的标准误相对较非参数法稍大,尤其是水平1残差方差σ? 2的标准误远远大于非参数法和原始样本,与我们的理论假设是一致的。原因在于,原始样本的水平1残差eij不服从正态分布,非参数法考虑了这一点,而参数法则假设其服从正态分布。总之,多水平模型分析结果显示,与广州相比,上海、北京和西安居民的GERD总评分没有明显的差异,而武汉居民的GERD总评分则相对较高,即表示武汉的GERD发病率在5个调查城市中相对较高;居民的总体健康状况越差,其GERD总评分越高,且其对GERD总评分的影响受到武汉与广州之间地域差异的影响;农村居民、文化程度越低、精神状况越差者更容易患GERD;另外,那些有胃肠道疾病或肿瘤家族史,既往患有胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,患GERD的可能性更大,而性别、年龄等因素,本研究未发现其与GERD有显著的关系。而上述结论中,除了未发现城市居民和农村居民在GERD发病方面有显著差异之外,非参数法和参数法的其他结论与原始样本基本一致。研究结论:本研究采用国际规范的标准化量表,在中国大陆进行了截至目前为止规模最大的一次GERD流行病学调查,建立了中国大陆GERD流行病学调查数据库,并深入分析了GERD的影响因素。结果表明,在调查的五个城市中武汉的GERD发病情况最重;农村居民、文化程度越低、健康状况和精神状况越差者,以及有胃肠道疾病或肿瘤家族史的人更可能患GERD;而那些既往患有慢性胃炎、消化不良、风湿性关节炎,现患有肠易激综合征、吞气症的人,同样也更可能患GERD。而性别、年龄、吸烟、饮酒、家庭收入、婚姻状况、职业、体力活动或体育锻炼等因素,以及慢性咽喉炎、腹部手术史和非特异性肠功能紊乱等疾病可能也与GERD有关联关系。总之,本研究首次将关联规则挖掘技术和多水平模型联合应用于GERD流行病学调查资料的分析,克服了传统统计方法的局限性,更科学的研究和评价了GERD的影响因素,提高了人们对于GERD的认知程度,为更好地防治GERD提供了一定的理论依据。而本研究所进行的多水平模型和关联规则挖掘技术的联合应用研究对于其他流行病学调查资料的分析在方法学方面亦有一定的参考价值。
其他文献
社会网络又称人际网络,实质上就是为达到特定目的,人与人进行信息交流和资源利用的关系网,是一个由某些个体或组织间社会关系构成的动态的系统。现代社会中,各种组织为了完成
三峡库区成库后,其水质状况一直受到各方的关注,强化三峡库区的水质预警预报工作,提高三峡库区应对水污染事件的信息化水平是三峡库区面临的一项紧迫任务。GIS作为收集、存储
以新鲜猪血浆为原料,采用饱和硫酸铵分步盐析法制备免疫球蛋白产品,并研究其对小白鼠免疫功能的影响。试验一:以IgG的含量为考查指标,比较辛酸法和饱和硫酸铵盐析法的沉淀效
本文的研究对象是“城市空间构成”,选题的着眼点是关注改革开放以来,中国的城市建设如火如荼,然而,与之相对应的城市建设体系理论研究成果却相对落后,对城市建设过程中产生
土耳其,一个美丽热情且富有传奇的神境国度,一个令人无限幻想的文明古国,一个充满机遇跨亚欧大陆的发展中国家。这里传承着对东方传统和文化的尊重,也追求着西方的开放和民主
使市场在资源配置中起决定性作用和更好发挥市场作用,是十八届三中全会提出的一个重大理论观点。我国社会主义市场经济中的"市场决定性作用",是以社会主义基本经济制度为基础
目的探讨七氟醚在超高龄手术患者全麻维持中的应用价值。方法选取超高龄手术患者20例,静脉诱导后予以顺苯阿曲库铵、七氟醚,为观察组。于相同时间段另选超高龄手术患者20例,
运用教育心理学理论 ,并与体育教学实践紧密结合 ,分析了体育教师教学风格的特点 ,如个体性、稳定性、发展性 ;体育教师教学风格形成的基本条件 ,如社会条件、个人条件 ;体育
植被是反映区域性生态环境状况的重要指标之一,而地下水对植被的生长有着重要的影响。结合MOD IS-NDV I遥感数据与地下水位观测数据,从大尺度上研究了银川平原地下水与植被的
国际投资仲裁裁决在中国的承认与执行,首先取决于仲裁管辖权的正当性。中国对外签署的双边投资条约历经换代更新后,对运用国际投资仲裁解决投资争端的接受度明显提升,这有助