级联GA-CatBoost在妊娠期糖尿病预测诊断中的研究

来源 :太原理工大学 | 被引量 : 8次 | 上传用户:dtj77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息智能化进程不断发展,互联网与传统医疗不断融合,数据挖掘和机器学习技术已经越来越频繁地被用于预测疾病发生的可能性。在医疗诊断领域,越来越多的生理指标、疾病类型和生物工程技术,加大了医生诊断疾病的难度,针对该问题,机器学习和数据挖掘技术能够从医学数据中提取隐藏的、具有潜在价值的和新颖的信息,以提高诊断准确性,减少时间和成本。一方面可以对医生的诊断结果提供进一步的验证,另一方面还能给医生提供一个复杂疾病的分析工具。CatBoost(Category Boosting)是一种基于梯度提升树并且支持类别特征及字符串类型特征的机器学习框架。梯度提升是一种强大的机器学习技术,是解决具有异构特征、噪声数据和复杂依赖关系的问题的主要方法。本文以妊娠期糖尿病为研究对象,采用迭代自组织数据分析法(Iterative Selforganizing Data Analysis Techniques Algorithm,ISODATA)和拉伊达准则检测并且剔除离群值,将CatBoost作为预测模型,使用遗传算法(Genetic Algorithm,GA)优化对CatBoost模型的参数进行联合优化,选择最优训练参数,最后将CatBoost与XGBoost(eXtreme Gradient Boosting)、LightGBM级联,即级联GA-CatBoost。主要研究和工作内容如下:(1)研究课题分析了国内外相关研究概述,介绍了糖尿病尤其是妊娠期糖尿病(Gestational Diabetes Mellitus,GDM)的发病原理、医学诊断指标特点,并详细说明了目前预测诊断糖尿病的常用方法及其优缺点。(2)针对离群值对预测结果的影响,采用迭代自组织数据分析算法和拉伊达准则检测并消除离群值,因为离群值对妊娠期糖尿病预测分类的影响较明显,在进行预测诊断过程中需要边学习类别的特征、边防止离群值的干扰。该算法允许每个实例只属于一个集合,目标是在集合内达到高度相似性,而集合之间的相似性很低。使用ISODATA检测离群值可以减少离群点的干扰并提高预测的准确度。(3)构建多种分类器,对比分析各种分类器的性能。由于妊娠期糖尿病数据集包括连续属性和缺失值,根据数据类型填充缺失值并进行one-hot处理;在使用IV值进行特征分析的同时构建组合特征。最后结果表明CatBoost分类器具有最佳分类效果。(4)本文使用遗传算法多点搜索点空间,最终得到全局最优解。由于CatBoost的参数较多,预测准确率严重依赖于参数的设定,每个参数都具有不同的作用,依靠主观判断和试探法,工作量巨大并且精确度较低,本文通过遗传算法(GA)和网格搜索(GS)分别对CatBoost模型参数进行调优,通过AUC(Area Under roc Curve)值对比,得到GA得到的参数效果更好。最后,将GA-CatBoost、XGBoost、LightGBM级联,即级联GACatBoost,能够提高模型泛化能力。
其他文献
冷轧成品机组和中间机组的柔性切换控制来源于宝山钢铁股份有限公司冷轧3期其中的一条机组。该机组既是成品机组,又是中间机组,是冷轧机组生产的一次新尝试。文章主要介绍了
我国作为多民族国家,少数民族文化迥异,在历史的长河当中不断发展和传承当中,给我国的文化留下了浓墨重彩的一笔。本文主要讨论少数民族传统文化知识产权保护的合理必要性,以及作
孙悟空是中国有史以来形象最多变、表现载体最驳杂的神话角色之一,学界以往并未厘清现代主流孙悟空形象的变化过程。本文选取美术片《大闹天宫》中经典孙悟空形象为研究对象,
针对悬臂式掘进机截割过程中出现的力纷争现象,开展基于刚柔耦合的截割协同仿真分析,将悬臂式掘进机回转台柔性化处理,将一维的液压系统仿真模型和三维的机构仿真模型及三维
电化学扫描显微镜(SECM)是一种具有高时空分辨度的新型扫描探针显微镜,它是由美国的电化学家Bard与1989年提出的。电化学扫描显微镜因为其“化学灵敏性”,它不仅可以表征检测
传统语言学认为,多义词各义项之间的关系是无理可依的,对于多义词的习得,一直以来都采取死记硬背的方式。而认知语言学的研究表明,多义词的各义项之间并不是孤立存在的,而是内部具
“一切艺术之美在于形式。”可见形式对艺术的重要性。工笔山水画在中国绘画史上充当着重要的角色,而造型、构图、色彩作为表现工笔山水画的形式因素,随着时代的变更发生了很
基坑工程涉及到岩土工程、结构工程等相关问题,复杂性高,设计理论的发展滞后于工程实际的需求。在实际工程中,支护结构很难达到极限状态下的位移,因此作用于支护结构上的土压
边疆地区特殊的地理位置,历来都与国家主权和领土完整有着密不可分的关系,国防、边疆防卫是各朝各代都十分重视的问题。近代中国历史时期由于政权频繁更迭,而边境地区的防卫情况