论文部分内容阅读
研究基于多分类器集成的疾病诊断模型,对提高疾病诊断的准确性、及时性,减轻医务人员的负担,具有十分重要的意义。对于医疗检测出的数值结果,机器学习方法可以进行主动学习,因此被广泛应用于各种医疗诊断系统。疾病诊断是一个复杂的决策过程,可用机器学习中分类方法来解决。然而对未知数据,若使用单一分类方法进行预测很难达到较高的泛化能力。因此在实际的应用中,需综合考虑多分类器组合和优化。多分类器集成能显著提高一个学习系统的泛化能力,因而在机器学习界得到了广泛的关注。论文在研究疾病诊断方法以及多分类器集成的基础上,主要研究了以支持向量机(SVM)作为基分类器的多分类器集成诊断模型及优化。主要的研究内容和工作成果如下:1、对传统的基于机器学习的疾病诊断系统进行了研究,考虑到疾病数据具有分布不平衡、冗余和高维特性等现象,研究了数据预处理,降维及不平衡数据处理方法。以典型SVM与KNN方法为基础,建立了单分类器疾病诊断模型,在糖尿病与乳腺癌数据集上进行了实验,结果表明,SVM诊断方法表现了更好的预测性能。2、对多分类器集成方法进行了深入分析,重点研究了Adaboost与Bagging算法,分别利用Adaboost与Bagging方法对样本分布进行改变,获得了一组具有差异性的单分类器,从而建立了基于Adaboost_SVM与Bagging_SVM的集成诊断模型。实验结果表明,相对单分类器模型而言,多分类器集成模型在疾病诊断中表现更好的准确性与稳定性。3、在分析多分类器集成及选择性集成方法缺陷的基础上,开展了基分类器多样性研究。尝试从多样性与准确性二者均衡的角度研究基分类器选取准则,提出了一种新的评价策略WDA(Weighted Diversity and Accuracy,WDA),利用遗传算法(GA),设计了基于WDA与GA的多分类器选择性集成诊断模型,并在疾病数据集上开展了相关实验,为有效提高多分类器集成系统的诊断能力提供了参考。