面向健康评估的机器学习方法研究与应用

来源 :电子科技大学 | 被引量 : 10次 | 上传用户:iloveshe1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是机器学习的主要任务之一。生活中的一些决策问题便可以看作分类问题,比如与人们健康紧密相关的疾病诊断。分类算法将会从训练样本中训练合适的模型从而给出更加智能的结果,辅助医生进行诊断。然而针对某种疾病,直接使用某种分类算法做出决策,可能并不能达到理想的效果,因为各种分类算法在不同数据集上的分类效果存在差异,即不存在一种分类算法在任何数据集上的表现,均优于其他分类算法。鉴于疾病诊断对于准确率有非常高的要求,如何构造具有强泛化能力的分类诊断模型,成为机器学习在这一领域的研究重点。本文主要针对某些疾病,研究构造具有更高分类准确率的分类诊断模型,从而为疾病诊断提供更加准确的结果。通过比较K-近邻(KNN),Logistic回归和支持向量机(SVM)等监督分类算法在乳腺癌和糖尿病数据集上的分类准确率,找出更适合乳腺癌和糖尿病诊断的分类诊断模型。在此基础上,针对冗余特征对分类准确率的影响,提出一种集成混合特征选择和线性SVM的乳腺癌诊断模型,进一步提高了乳腺癌诊断的准确率;针对网格搜索对高斯核SVM参数优化效果不佳的问题,提出一种集成改进的加速粒子群优化算法和高斯核SVM的糖尿病诊断模型,提高了糖尿病诊断的准确率。本文主要贡献和研究成果如下:(1)通过比较K-近邻(KNN),Logistic回归和支持向量机(SVM)等分类算法对于乳腺癌和糖尿病的诊断准确率,发现线性SVM对于乳腺癌的诊断获得了最高的准确率,而高斯核SVM对于糖尿病的诊断准确率更高,这些内容是进行后续研究的基础。(2)针对冗余特征对训练时间和分类准确率的影响,提出一种结合相关性与序列选择的混合特征选择方法,结合线性SVM,构建出集成混合特征选择和线性SVM的乳腺癌诊断模型,进一步提高了线性SVM对于乳腺癌诊断的准确率。(3)针对参数对高斯核SVM性能的影响,对加速粒子群优化算法进行了改进,提出一种集成改进的加速粒子群优化算法和高斯核SVM的糖尿病诊断模型,进一步提高了高斯核SVM对于糖尿病诊断的准确率。
其他文献
作为当今通信领域的主要手段,智能手机已经成为人们生活和工作中必不可少的通信设备,同时移动通信网络也已经成为了第一大通信媒体网络。随着智能手机,平板电脑等便携式移动
随着这些年来信息技术的发展,人们在获取数据以及存储数据的能力变得越来越强。海量的数据中往往包含了许多有意义的信息,这些时候就需要利用数据挖掘从这些信息中提炼出现实
互联网的高速增长,在给我们的生活带来极大的便利的同时,也让我们湮没在了信息的海洋中,海量的数据已经使得我们寻找相关信息时,很难快捷的发现我们的目标信息。为了克服信息
随着计算机技术的迅速发展,招生考试工作信息化程度不断提高,北京教育考试院每年通过对各级各类考试的组织,积累了大量的考试数据。这些数据隐含着学校教育的真实现状以及学科教
学位
高维数据通常有几十甚至成百上千个属性,而很多高维数据的类仅存在子空间内。子空间聚类算法尝试在数据集的不同子空间上探测和发现有意义的簇类。   一种新的高维数据子空
多机器人编队控制是多机器人系统研究中一种常见的协作问题,是许多多机器人协调合作问题的基础。近年来,随着多机器人系统在军事、工业、航空航天等领域的广泛应用,多机器人
随着空间信息科学理论与技术的深入研究和广泛应用,遥感技术的应用已渗透到人类生存的自然环境、国防技术、国民经济和社会生活的各个方面,在人类赖以生存的生产与生活中起着举
作为一个开源、高效的虚拟机,Xen被广泛地应用和研究。Xen最初只支持半虚拟化,随着Intel VT技术的推出,使得Xen能够支持完全虚拟化。   Xen默认采用信用调度算法,在单独运行I/
近年来,国内外食品安全问题接连不断,食品安全问题己成为当今各国政府、消费者和科技界广为关注的焦点问题之一。为此,建立完整有效的食品安全追溯体系势在必行。我国现有的食品
学位
知识发现是当前计算机科学与人工智能领域最为活跃的研究课题之一,粗糙集由于其特有的优势,成为了知识发现领域非常重要的理论。而连续属性离散化是利用粗糙集进行知识获取所