论文部分内容阅读
随着信息智能化进程不断发展,互联网与传统医疗不断融合,数据挖掘和机器学习技术已经越来越频繁地被用于预测疾病发生的可能性。在医疗诊断领域,越来越多的生理指标、疾病类型和生物工程技术,加大了医生诊断疾病的难度,针对该问题,机器学习和数据挖掘技术能够从医学数据中提取隐藏的、具有潜在价值的和新颖的信息,以提高诊断准确性,减少时间和成本。一方面可以对医生的诊断结果提供进一步的验证,另一方面还能给医生提供一个复杂疾病的分析工具。CatBoost(Category Boosting)是一种基于梯度提升树并且支持类别特征及字符串类型特征的机器学习框架。梯度提升是一种强大的机器学习技术,是解决具有异构特征、噪声数据和复杂依赖关系的问题的主要方法。本文以妊娠期糖尿病为研究对象,采用迭代自组织数据分析法(Iterative Selforganizing Data Analysis Techniques Algorithm,ISODATA)和拉伊达准则检测并且剔除离群值,将CatBoost作为预测模型,使用遗传算法(Genetic Algorithm,GA)优化对CatBoost模型的参数进行联合优化,选择最优训练参数,最后将CatBoost与XGBoost(eXtreme Gradient Boosting)、LightGBM级联,即级联GA-CatBoost。主要研究和工作内容如下:(1)研究课题分析了国内外相关研究概述,介绍了糖尿病尤其是妊娠期糖尿病(Gestational Diabetes Mellitus,GDM)的发病原理、医学诊断指标特点,并详细说明了目前预测诊断糖尿病的常用方法及其优缺点。(2)针对离群值对预测结果的影响,采用迭代自组织数据分析算法和拉伊达准则检测并消除离群值,因为离群值对妊娠期糖尿病预测分类的影响较明显,在进行预测诊断过程中需要边学习类别的特征、边防止离群值的干扰。该算法允许每个实例只属于一个集合,目标是在集合内达到高度相似性,而集合之间的相似性很低。使用ISODATA检测离群值可以减少离群点的干扰并提高预测的准确度。(3)构建多种分类器,对比分析各种分类器的性能。由于妊娠期糖尿病数据集包括连续属性和缺失值,根据数据类型填充缺失值并进行one-hot处理;在使用IV值进行特征分析的同时构建组合特征。最后结果表明CatBoost分类器具有最佳分类效果。(4)本文使用遗传算法多点搜索点空间,最终得到全局最优解。由于CatBoost的参数较多,预测准确率严重依赖于参数的设定,每个参数都具有不同的作用,依靠主观判断和试探法,工作量巨大并且精确度较低,本文通过遗传算法(GA)和网格搜索(GS)分别对CatBoost模型参数进行调优,通过AUC(Area Under roc Curve)值对比,得到GA得到的参数效果更好。最后,将GA-CatBoost、XGBoost、LightGBM级联,即级联GACatBoost,能够提高模型泛化能力。