数据挖掘技术在新疆艾滋病预测与控制模型中的应用研究

来源 :新疆医科大学 | 被引量 : 5次 | 上传用户:netuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:为了探讨数据挖掘技术在新疆艾滋病预测与控制中的应用,利用数据挖掘技术预测新疆艾滋病的流行趋势、监测HIV治疗与疾病进展、识别高危人群、分析高危行为等,为新疆艾滋病的防控提供参考依据。方法:1)以2004-2016年新疆HIV月发病率样本数据为研究对象,分别建立了单一ARIMA模型和组合ARIMAGARCH模型,对2004-2016年的新疆HIV月发病率数据进行拟合,评价模型预测效能,对新疆HIV月发病率进行1年的短期预测。2)以2007年1月-2015年12月期间的506例在新疆接受抗病毒治疗的儿童艾滋病患者的纵向随访数据作为研究对象,对其基线数据特征、不同治疗时间点,不同分组特征的抗病毒治疗情况进行统计分析,了解研究对象抗病毒治疗的基线情况、免疫学效果、病毒学效果以及生长发育状况。采用广义估计模型分别对免疫学指标(CD4细胞计数)和生长发育指标(HAZ、WAZ)建立单因素和多因素的预测模型,找出影响新疆儿童艾滋病患者抗病毒治疗免疫学和生长发育的关键指标,评价治疗效果。3)以乌鲁木齐市2009-2015年3组高危人群(注射吸毒者、男男性行为者、女性性工作者)的哨点监测报告数据为研究对象,数据内容包括人口学特征、性行为和血清学检测结果。然后以年龄、婚姻状况、教育程度等变量作为输入变量,是否感染HIV作为输出变量,建立三个数据集的四个预测模型。使用混淆矩阵、准确率、灵敏度、特异度、精确率、召回率和ROC曲线下面积AUC等指标来评估模型分类性能,并分析预测变量的重要性。结果:1)预测了2017年1-12月新疆HIV的月发病率,结果显示新疆2017年1-12月的HIV月发病率呈现出逐月下降的趋势,组合模型ARIMA-GARCH修正了ARIMA模型的ARCH效应,预测精度高于单一ARIMA模型,并且能够较好的对新疆HIV月发病率进行短期预测。2)506例新疆儿童艾滋病患者的基线数据特征结果显示,其中男童258例(50.99%),平均年龄7.62岁,年龄分布以>5岁为主,感染途径以母婴传播为主,临床分期主要以I期,II期为主。治疗前CD4细胞个数异常率为58.89%,病毒载量异常率为51.28%。初始治疗方案以AZT+3TC+NVP/EFV为主。不同随访时间治疗情况主要结果显示:随着治疗时长的增加,治疗后的CD4细胞计数、血小板、血红蛋白、总胆固醇、甘油三脂、谷草转氨酶、谷丙转氨酶、身高、体重、HAZ和WAZ是随着治疗的时长增加而增加的;病毒载量、白细胞、总淋巴细胞和临床表现及机会性感染是随着治疗时长的增加而递减的;血糖,血肌酐和血尿素氮随着治疗时长的增加呈现出波动变化的趋势。其中治疗时长为1年时CD4细胞计数平均增长177个/μL,与治疗前相比增加了47.58%。病毒载量从治疗前的平均病毒载量106500拷贝/ml下降到治疗时长为1年时的25拷贝/m,远低于病毒载量检测的最低下限指标50拷贝/ml。不同分组特征CD4细胞计数主要结果显示:治疗前后不同年龄段、不同开始ART年龄、不同基线CD4细胞计数分组、不同HAZ值分组以及不同初始治疗方案这几个分组的CD4细胞计数差异均有统计学意义(P<0.05)。治疗后与治疗前相比CD4细胞计数均有增加,其中年龄分组≤5岁组平均增长高于>5岁年龄组;开始ART年龄分组≤5岁组平均增长高于开始ART年龄>5岁组;治疗前后不同基线CD4细胞计数分组中CD4细胞计数≥500组在治疗后平均增长最多;初始治疗方案分组中含ABC方案组平均增长最多。不同分组特征治疗前后HAZ值主要结果显示:性别、年龄、基线CD4细胞计数、初始治疗方案,WHO临床分期以及复方新诺明使用情况这几个组的HAZ值,差异均有统计学意义(P<0.05)。治疗后与治疗前相比HAZ值均有增加,其中女童组治疗后HAZ值平均增长高于男童组;>5岁年龄组治疗后的HAZ值平均增长高于≤5岁组;WHO临床分期III/IV期组的HAZ值平均增长高于I/II期组;复方新诺明使用组HAZ值平均增长高于不使用组。不同分组特征治疗前后WAZ值主要结果显示:性别、确诊到开始ART的间隔时间、基线CD4细胞计数、WHO临床分期和复方新诺明使用情况这几个分组的WAZ值,差异均有统计学意义(P<0.05)。其中女童组治疗后WAZ值增长高于男童组;确诊到开始ART的间隔时间≤6个月组治疗后WAZ值平均增长大于>6个月组;处于WHO临床分期III/IV期组的WAZ增长高于I/II期组;复方新诺明使用组WAZ值平均增长高于不使用组。CD4细胞计数多因素GEE模型结果显示:影响新疆儿童艾滋病患者免疫学效果的关键指标是治疗时长(年)和基线CD4细胞计数水平。HAZ值和WAZ值多因素GEE模型结果显示:影响新疆儿童艾滋病患者生长发育状况的关键指标是治疗时长(年)、年龄、开始ART年龄以及WHO临床分期。3)实验结果表明:随机森林算法得到了最优预测结果,对MSM数据集的诊断准确率为94.4821%,FSW数据集的诊断准确率为97.5136%,IDU数据集的诊断准确率为94.6375%。其次是k近邻算法,对MSM数据集的诊断准确率为91.5258%,对FSW数据集的诊断准确率为96.3083%,对IDU数据集的诊断准确率为90.8287%。再次是支持向量机,对三个数据集的诊断准确率分别为94.0182%,98.0369%和91.3571%。决策树算法是四种算法中预测结果最差的,对MSM数据集的诊断准确率为79.1761%,对FSW数据集的诊断准确率为87.0283%,对IDU的诊断准确率为74.3879%。随机森林模型自变量的重要性得分表明,在乌鲁木齐市三个高危人群中,年龄是识别HIV感染最重要的影响因素。结论:第一部分研究建立的ARIMA-GARCH联合模型能够较好的拟合预测新疆HIV的月发病率数据,消除样本数据序列的ARCH效应,修正了ARIMA模型的不足,也较好地保留了新疆HIV月发病率预测的数据趋势。第二部分研究建立的广义估计模型找出了影响新疆儿童艾滋病患者免疫学和生长发育的主要危险因素,克服了其他方法对数据要求严格、无法分析多个不同时间点不同测量指标相关性的缺陷,能够较好地对新疆儿童艾滋病患者的治疗随访数据进行统计分析与推断。第三部分建立的高危人群HIV易感者的识别模型可以根据某些重要属性准确地识别疾病。三部分的研究均表明数据挖掘技术作为一种辅助疾病筛查和诊断的新方法,可以帮助医务人员从大量的信息中快速筛查和诊断艾滋病,监测HIV治疗与疾病进展、识别高危人群,为艾滋病的防控提供新的技术和方法。
其他文献
成渝城市群是我国西部经济实力最为雄厚的地区,是新时期下国家"一带一路"建设的重要战略支点,是我国城市化建设进一步完善的核心区域,对提高内陆地区开放水平,拉动西部经济发
我国存款保险制度具有早期纠正职能。《存款保险制度的早期识别和及时干预一般指引》通过疏理国际经验和国际存款保险协会成员的早期纠正实践,系统性地阐述了早期纠正的核心
自上世纪80年代高新区启动建设以来,一直肩负推动我国高新技术发展及其产业化的使命。随着我国创新驱动发展战略的实施,高新区作为高新技术企业的培育载体被任命为落实创新发
提高基础医学教育质量的关键之一是搞好基础医学实验教学的课程建设。我校在国内率先对基础医学课程教学实验室管理体制进行改革,成立了校级基础医学实验教学中心,下设6个功
我们在本文主要研究当代西方“后马克思主义”思想家斯拉沃热·齐泽克对马克思的商品拜物教理论所做的重新解读,对马克思商品拜物教理论在研究方法、理论范畴、对该现象作用
随着文化发展的进程不断繁荣,艺术家的审美与追求逐渐发生了巨大的变化,从而使艺术创作的形式与内容逐渐多样化。山景题材一直是众多艺术家研究的对象之一,对绘画的发展和创新具有重要的学术价值。山景绘画题材的基本概念就是以山的地貌特征为主要观察表现对象的绘画题材。山景题材记录和表现了一定时期内当时的山脉景观,其中就包括当地的区域特点、景观风貌、历史文化和人文精神等。艺术家在山景题材创作时,面对的山景不只是客
由于当下媒体市场飞速发展,受众更加倾向于故事化的传播表达,纪录片自身吸收了电影、电视剧、戏剧等其他艺术种类的叙事特点,形成了纪录片故事化的表达趋势。纪录片故事化不
斯拉沃热·齐泽克(1949-)是当今西方学术界著名的哲学家和精神分析学者,商品拜物教理论在齐泽克的资本主义社会批判和意识形态批判问题研究中占有重要地位。齐泽克基于马克思
PPP模式是近30年来在基础设施领域最为活跃的方向。无论是学术界,还是实务界,都在不断发展PPP模式的相关理论和实践方法,取得了一系列的成果,分别在环境治理、公路、住宅、隧