论文部分内容阅读
医疗数据因其自身具有独特的异构性、海量性、复杂性及安全性等特点,在其采集与处理的过程中会产生许多不完整、不一致的“脏数据”,从而影响了对这些数据的分析及利用。目前,如何从庞大的医疗数据库中应用智能学习算法高效地挖掘出有价值的信息,为医疗领域的疾病诊断和医学研究做出贡献成为了医疗大数据时代研究的热点。在医疗数据的挖掘工作中,特别是在对高维医疗数据进行分类时,由于大量的医疗检验指标产生的各种高维属性变量将会导致在数据分析时要进行大量的计算,这在一定程度上增加了医疗数据挖掘所消耗的时间和成本。而且在这大量的医疗数据中所含的噪声也会降低数据分类识别的准确率,进而影响到最终医疗决策分析的结果。所以无论是减少数据处理的计算量还是提高数据分类的准确率,对医疗数据的挖掘都有着重要的意义。本文以核方法理论为基础,从医疗数据分类识别的应用背景出发,对数据挖掘过程中的KPCA方法和SVM分类方法进行研究发现,尽管SVM算法适合高维模式的数据分析,但在处理高维、复杂、小样本、高噪声的医疗数据时,算法的计算量以及消耗的时间成本还是比较高的;而基于KPCA分析的降维方法,虽然在降低数据维度的同时,有效的整合了数据的特征信息,但是其在减少数据计算量的同时对数据的噪声点具有较强的敏感性。故本文首先以弱化重构误差的技巧对KPCA方法在数据降维时产生的噪声敏感性进行了弱化,提出了一种改进的KEPCA方法,并与KPCA方法在高噪声数据的去噪性能及降维效果上进行了比较分析,经实验验证,KEPCA方法在进行数据降维时比KPCA方法有着更强的去噪能力;接着以特征加权的思想对SVM分类方法进行优化,提出了一种改进的多核SVM分类方法,并与几种常用的分类算法进行实验分析,验证了本文EWSVM方法在小样本、高噪声医疗数据的分类任务中具有较高的分类准确性。最后,论文以KPCA方法和SVM方法相结合的模式对7组在样本量、属性维度、数据噪声量上具有代表性的医疗数据集进行了分类实验,并分别在模型分类的准确率、灵敏度以及特异度这几个评估指标上对本文提出的算法进行了统计分析,验证了本文方法进行分类识别高维、小样本、高噪声的医疗数据时,在样本去噪、缩减数据计算量、提高分类准确率方面的合理性和有效性,同时也进一步验证了KPCA方法与SVM方法相结合的模式分类方法在医疗数据挖掘中具有较优的数据分类能力。