论文部分内容阅读
随着疾病谱和现代医学模式的转变,流行病学研究的范围也经历了从传染病到非传染病、急性病到慢性病、从疾病到健康的转变,社会因素、心理因素在疾病和健康问题相关研究中受到越来越多的关注。社会心理流行病学研究呈现出多因一果的特点,多个因素多种水平的交互作用错综复杂,传统的方法在分析时受到诸多条件的限制,方法越来越难,运算量越来越大,结果的解释也越来越不容易,对决策支持提供的信息也缺乏整体性和直观性,因此可操作性有所降低。引进一种基于数据的、易操作的,结果可靠且容易理解的分析技术,具有相当的迫切性。基于树结构模型的数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型,可用于提取描述重要数据类的模型或预测未来的数据趋势。利用了人工智能(AI)所带来的好处,在足够多的数据和计算能力下,几乎不用人的关照自动就能完成许多有价值的功能,使研究者能够更专注于自己所要解决的问题。听力损失和认知功能减退在老年人中较为普遍,对老年人的身心健康都有影响,会使老年人的生活质量下降,危害极为严重。因此,探讨听力损失和认知功能的影响因素进而对其做出干预,对提高老年人生活质量有着重要意义。目的:(1)探讨老年人认知功能及听力损害的影响因素及其作用方式;(2)比较通过几种常见算法构建的树结构模型的效果;(3)探讨不同类型因变量资料的树模型应用。数据来源:1.抽取太原市太白巷、杏花岭、煤化所、江阳化工厂、农科院等五个社区的1065名60岁以上非痴呆老年人作为研究对象,其中男461人,女604人。作为认知功能研究的查对象。调查内容为横断面研究,主要包括:1)认知功能测查。在小范围预调查的基础上,采用选自韦氏成人智力量表的算术、数字广度、填图、木块图几个分测验以及简易智能量表(Mini memal state examination,MMSE)测定1065名老年人的认知功能,以探索老年人认知功能随年龄变化的规律。2)一般情况调查。包括:一般人口学资料,如年龄、性别、职业、受教育程度、婚姻状况等;躯体健康状况资料,如高血压、糖尿病、脑血栓等疾彩?测量血压、听力损失情况;生活习惯,如Smoking、饮酒、体育锻炼、常读书看报、做家务等。3)生理指标测定。对太白巷、江阳、农科院社区的294名老年人进行如下指标测定:血糖、血脂(包括胆固醇、高密度脂蛋白、低密度脂蛋白、甘油三酯)测定,采用酶法。2.随机抽取太原市两个社区的50岁以上中老年人371例(男131例,女240例)作为听力损失的研究对象。调查内容包括1)一般情况调查。包括:一般人口学资料,如年龄、性别、职业、受教育程度、婚姻状况、收入情况等:躯体健康状况资料,如高血压、糖尿病、脑血栓、冠心病、高脂血症等疾病史,测量血压;生活习惯,如居住情况,出行习惯,是否经常参加社区活动、吸烟、饮酒、体育锻炼、常读书看报、做家务等。2)实验室检查:查12小时空腹血糖.甘油三脂和总胆固醇。3)听力测查:采用LK-1助听评估仪分别测两耳0.5kHz、1kHz、2kHz听阈。研究方法:1.认知功能研究将韦氏成人智力量表中的算术、木块图、填图和数字广度四个分测验的标准分和MMSE总分转换为二分类变量,以转换后的韦氏四项分测验得分和MMSE总分为因变量,以CHAID、EXHAUSTIVE CHAID、CRT和QUEST四种算法拟合树结构模型。2.听力损失研究以最优耳听阈、左耳听阈、右耳听阈以及0.5kHz、1kHz、2kHz听阈为变量(连续变量),拟合树结构模型。结果:在认知功能研究中,对韦氏成人智力量表算术、木块图、填图、数字广度四个分测验得分有影响的变量有受教育程度、婚姻状况、运动、性别、年龄、胆固醇、高密度脂蛋白、低密度脂蛋白、对身体状况的自我感觉、吸烟、饮酒、收缩压。受教育程度低、丧偶、很少运动,女性、高龄、高密度脂蛋白低、低密度脂蛋白高、自我感觉身体较差、吸烟、饮酒是出现得分低于正常的危险特征。对MMSE测验得分有影响的因素有冠心病史和舒张压,有过冠心病史、舒张压高于正常均可导致MMSE总分低于正常值。不同的算法构建的树结构模型对因素间交互作用的方式描述有差异,但总体的趋势一致。模型的响应指数曲线和收益曲线表明模型的拟合效果良好。模型的误分代价估计值在0.10-0.38之间,错分概率在7%—28%之间,整体预测精度达到72%—92.9%之间。CRT算法和QUEST算法引入的变量较多但树形图相对简单,是因为部分引入的变量并不是作为分支变量,而是当分支变量出现缺失值时作为其替代变量出现的,这些变量和分支变量有较高强度的关联性,往往能为我们的下一步研究提供线索。在听力损失研究中,最优耳听力损失的影响因素有年龄、社区活动、舒张压、收入:左耳听力损失的影响因素有年龄、居住情况、收入和性别:右耳听力损失的影响因素有年龄和收入;0.5kHz频率下测得的听力损失影响因素有出行习惯,年龄,收入,血糖,居住情况,高血压;1.0 kHz频率下测得的听力损失影响因素有年龄、居住情况和性别;2.0kHz频率下测得的听力损失影响因素有年龄、收入、居住情况和性别。年龄是老年人听力损失的主要影响因素,随着年龄的增长,听力损失的程度加重,一个例外是59岁和60岁老人的听力损失较其相邻的年龄段低;经常参加社区活动的人听力损失程度重,舒张压高于正常者听力损失程度重,收入低于200元的人听力损失程度重,和子女同住者听力损失程度重,男性的听力损失程度低于女性,习惯自己搭乘公车者听力损失程度重,低血糖者听力损失程度轻于正常者,有高血压病史者听力损失程度重。左右耳比较,不同之处在于对居住情况(是否与儿女同住)的反应不同和部分的性别差异;0.5kHz频率下测得的听力损失程度较另外两种频率下测得的听力损失程度重,且影响的因素最多。CHAID算法和EXHAUSTIVE CHAID算法在本研究中的拟合结果一致,由于本研究样本量较小,CRT拟合的树模型中不包含自变量,且结果很不稳定,由于QUEST算法不能对连续型的因变量做出拟合,在本文中只采用了CHAID算法来构建树模型。结论:本文以老年人认知功能减退影响因素研究和听力损失影响因素研究为例,做树结构模型的比较学研究。以认知功能研究为例探讨以不同算法对同一组资料构建树结构模型挖掘出的信息有何异同,与传统方法研究的结果作对比看是否具有一致性;以老年人听力损失影响因素研究为例,探讨同一组资料经不同方式预处理后再构建树结构模型,尝试从不同的侧面对数据中隐藏的信息进行充分的挖掘,以便对数据背后的事实进行最大程度的还原。同时探讨树结构模型结果的表述与传统方法研究的结果表述相比有何异同、特色和优势。树模型挖掘出来的信息和其他方法的结果反映的信息基本一致,说明其对数据背后的事实还原程度较高,也就是说拟合效果较好,这是评价一种建模方法优劣的根本标准。但传统的方法更多的是单因素分析,结果比较侧重于某一种特定的因素,反映的是研究对象的局部的一种特征:即使是在多因素分析时,为了显示某一种或几种因素的效应,需要人为地将另外一种或几种因素的影响去掉,否则研究者关注的因素的作用就可能被掩盖了,说明传统方法对弱的交互作用探测能力不足,在这种情况下选择哪些因素作为研究的目标,或者把那种因素的作用遮盖以便显示其他因素的作用,就不可避免的具有了人为的偏性,这也是传统方法是基于技术的特点决定的,研究者在进行研究时花费了大量的精力对数据进行修饰和处理以适合方法的需要,既损失了部分信息,也可能或多或少偏离了研究的初衷,出现结果不能被很好地解释也就不在意料之外。树结构模型是一种数据挖掘技术,而数据挖掘技术是基于数据的方法,树结构模型擅长处理多变量资料,对资料的分布要求不严格,应用条件不苛刻,运算速度较快,适合处理不同类型的变量资料。CHAID、EXHAUSTIVE CHAID、CRT算法既可以适用于因变量为连续变量的情况,又可以适用于因变量是分类变量和无序变量的情况,QUEST算法只适用于因变量为连续变量的情况。CHAID算法和EXHAUSTIVE CHAID算法在构造树模型时设定参数相同的情况下,生成的树基本一致。CRT算法在样本量较小时不稳定,但在样本量足够大的情况下表现出色。在这种情况下研究者不需要花费大量的时间对数据进行处理和修饰,选择一种适合的算法,即可在友好的人机交互界面下引入众多变量以原本的信息表现形式进行模型构建,使信息损失达到了最小程度,也使操作的复杂性降到了很低的程度。树结构模型的另外一个特色是对交互作用的描述和解释更简单直观,而且能描述多于两种因素的交互作用,结果描述的是被研究对象同时具有的多种特征,具有较强的整体感。对于分类变量,能描述出几种因素交互作用时带来的目标效应的响应指数(能反应这些变量及其交互作用带来的目标效应响应聚集强度。类似于OR值),适合于筛选高危人群以便对其作出有效的干预。树模型方法简便易操作,结果可靠易理解,方法本身是从别的研究领域中引进的,在社会心理流行病学研究中的应用具有良好的效果,可以推断其在具有大样本、多因素、多水平、存在交互作用等特点的其他领域也具有良好的应用前景。当然,任何一种方法都可能有其不足之处,探讨树结构模型和传统方法的联合应用将是本人今后努力的一个方向。