论文部分内容阅读
分类是机器学习的主要任务之一。生活中的一些决策问题便可以看作分类问题,比如与人们健康紧密相关的疾病诊断。分类算法将会从训练样本中训练合适的模型从而给出更加智能的结果,辅助医生进行诊断。然而针对某种疾病,直接使用某种分类算法做出决策,可能并不能达到理想的效果,因为各种分类算法在不同数据集上的分类效果存在差异,即不存在一种分类算法在任何数据集上的表现,均优于其他分类算法。鉴于疾病诊断对于准确率有非常高的要求,如何构造具有强泛化能力的分类诊断模型,成为机器学习在这一领域的研究重点。本文主要针对某些疾病,研究构造具有更高分类准确率的分类诊断模型,从而为疾病诊断提供更加准确的结果。通过比较K-近邻(KNN),Logistic回归和支持向量机(SVM)等监督分类算法在乳腺癌和糖尿病数据集上的分类准确率,找出更适合乳腺癌和糖尿病诊断的分类诊断模型。在此基础上,针对冗余特征对分类准确率的影响,提出一种集成混合特征选择和线性SVM的乳腺癌诊断模型,进一步提高了乳腺癌诊断的准确率;针对网格搜索对高斯核SVM参数优化效果不佳的问题,提出一种集成改进的加速粒子群优化算法和高斯核SVM的糖尿病诊断模型,提高了糖尿病诊断的准确率。本文主要贡献和研究成果如下:(1)通过比较K-近邻(KNN),Logistic回归和支持向量机(SVM)等分类算法对于乳腺癌和糖尿病的诊断准确率,发现线性SVM对于乳腺癌的诊断获得了最高的准确率,而高斯核SVM对于糖尿病的诊断准确率更高,这些内容是进行后续研究的基础。(2)针对冗余特征对训练时间和分类准确率的影响,提出一种结合相关性与序列选择的混合特征选择方法,结合线性SVM,构建出集成混合特征选择和线性SVM的乳腺癌诊断模型,进一步提高了线性SVM对于乳腺癌诊断的准确率。(3)针对参数对高斯核SVM性能的影响,对加速粒子群优化算法进行了改进,提出一种集成改进的加速粒子群优化算法和高斯核SVM的糖尿病诊断模型,进一步提高了高斯核SVM对于糖尿病诊断的准确率。