基于核方法的医疗诊断数据分类算法研究

来源 :兰州交通大学 | 被引量 : 3次 | 上传用户:linzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗数据因其自身具有独特的异构性、海量性、复杂性及安全性等特点,在其采集与处理的过程中会产生许多不完整、不一致的“脏数据”,从而影响了对这些数据的分析及利用。目前,如何从庞大的医疗数据库中应用智能学习算法高效地挖掘出有价值的信息,为医疗领域的疾病诊断和医学研究做出贡献成为了医疗大数据时代研究的热点。在医疗数据的挖掘工作中,特别是在对高维医疗数据进行分类时,由于大量的医疗检验指标产生的各种高维属性变量将会导致在数据分析时要进行大量的计算,这在一定程度上增加了医疗数据挖掘所消耗的时间和成本。而且在这大量的医疗数据中所含的噪声也会降低数据分类识别的准确率,进而影响到最终医疗决策分析的结果。所以无论是减少数据处理的计算量还是提高数据分类的准确率,对医疗数据的挖掘都有着重要的意义。本文以核方法理论为基础,从医疗数据分类识别的应用背景出发,对数据挖掘过程中的KPCA方法和SVM分类方法进行研究发现,尽管SVM算法适合高维模式的数据分析,但在处理高维、复杂、小样本、高噪声的医疗数据时,算法的计算量以及消耗的时间成本还是比较高的;而基于KPCA分析的降维方法,虽然在降低数据维度的同时,有效的整合了数据的特征信息,但是其在减少数据计算量的同时对数据的噪声点具有较强的敏感性。故本文首先以弱化重构误差的技巧对KPCA方法在数据降维时产生的噪声敏感性进行了弱化,提出了一种改进的KEPCA方法,并与KPCA方法在高噪声数据的去噪性能及降维效果上进行了比较分析,经实验验证,KEPCA方法在进行数据降维时比KPCA方法有着更强的去噪能力;接着以特征加权的思想对SVM分类方法进行优化,提出了一种改进的多核SVM分类方法,并与几种常用的分类算法进行实验分析,验证了本文EWSVM方法在小样本、高噪声医疗数据的分类任务中具有较高的分类准确性。最后,论文以KPCA方法和SVM方法相结合的模式对7组在样本量、属性维度、数据噪声量上具有代表性的医疗数据集进行了分类实验,并分别在模型分类的准确率、灵敏度以及特异度这几个评估指标上对本文提出的算法进行了统计分析,验证了本文方法进行分类识别高维、小样本、高噪声的医疗数据时,在样本去噪、缩减数据计算量、提高分类准确率方面的合理性和有效性,同时也进一步验证了KPCA方法与SVM方法相结合的模式分类方法在医疗数据挖掘中具有较优的数据分类能力。
其他文献
近年来,中国移动互联网行业得到了迅猛发展。伴随着移动互联网行业的发展,移动应用领域也展现出了广阔的市场前景。目前,由于移动应用的发展速度远远超过了移动终端设备的发展速
在社交网络中,存在着大量的节点信息,同时又存在着数量更为巨大的节点间的联系。由此基于社交网络的分析和挖掘成为一个热点研究内容,并从社交网络中发现了更多有价值的信息和知
信息数据量的爆炸式增长使得存储设备的容量越来越大,如何有效地进行存储管理成为备受关注的问题。云计算的快速发展给存储技术带来了巨大挑战。云计算系统规模庞大,存储设备高
片上多核处理器系统已经成为处理器发展的主流趋势,针对此类系统的并行程序的运行时优化成为当前研究中的热点。并行线程调度优化已经成为提高系统资源利用率的关键之一,而传统
大学课程中物理实验是理工类院校提供综合性很强的实验能力培养课程,是学生对科学实验开展基本训练的基础课程和必修课程,同时也是培养大学生科学的严谨的实验操作能力、提升科
在当前互联网应用激增的背景下,基于Web的应用系统软件在社会生活的各个领域都得到了广泛的应用。政府和企业为提高工作效率、节省工作成本,将信息化建设作为重点工作内容,投入
网格作为一种新的计算能力,它可以对分布的、异构的资源进行共享及选择,并且能够解决大规模的计算问题,比如科学和商业上的,因此被越来越多的人所重视。网格技术是近几年新兴
随着网络存储系统中的信息量的爆炸式增长,系统的存储容量需求日益提高。而随着海量存储系统中的磁盘数目越来越多,由磁盘故障所引起的数据丢失的可能性也越来越大,系统的可靠性
目前DB2数据库技术作为信息系统的核心技术得到了不断的发展和完善。随着企业内的数据总量正在呈指数级增长,数据库系统的性能逐渐遇到了瓶颈,如何在有限的资源条件下提高数据
随着计算机和通信技术的高速发展,计算机网络在人们的工作和生活领域正在迅速普及,许多企业和组织为了充分利用和共享网络中的资源,都将自己的内部网络与互联网连接。但随之