论文部分内容阅读
当今社会随着人们生活水平的提高以及生活习惯、饮食习惯的改变,肿瘤的发病率和死亡率迅速上升,已成为威胁人类健康的主要疾病。肿瘤的早期诊断和治疗是减少肿瘤患者死亡率的关键。临床上常用的肿瘤检查方法包括有创检查和无创检查。不管是有创还是无创检查,都需要根据检查结果做出诊断,即分类。但当前的肿瘤分类技术高度依赖于病理学工作者对肿瘤组织的主观判断,靠他们的观察诊断难以避免经验差异、疲劳疏忽等人为因素的影响,误诊、漏诊等情况时有发生。而基于基因表达数据的肿瘤分类系统能够避免人为的主观因素带来的误判,完全基于客观的数据做出客观的评价,因此一个速度快,准确率高的分类系统是当前基于基因表达数据的肿瘤分类所面临的最大困难。而基因表达数据呈现高维小样本的特性,并且由于人为因素、环境改变等也会引入复杂的噪声。如果直接对其进行分类,误差太大,因此在分类之前必须采用有效的降维算法对其进行维数约简(即特征提取)。本文在分析传统的降维算法(如PCA、LDA、LPP、NPE等)的同时,引入了子空间的图嵌入降维算法,并将这些降维算法及其扩展置于图嵌入框架中。然而这些方法都要分解稠密矩阵,使得运算时间和耗费的物理内存迅速上升,分类正确率却不高。为了克服这些缺点,引入谱回归(Spectral Regression,SR)分析算法用于对基因表达数据进行降维。降维的最终目的是进行分类,本文实验对比分析了各种分类方法,在k-近邻的基础上提出了核空间k-近邻分类算法,同时吸取支持向量机的优点,并结合谱回归降维算法,最终将核空间k-近邻—支持向量机(KKNN-SVM)用于基因表达数据的分类。例如,在对数据集4_Tumors用谱回归进行降维后,分别用k-近邻和核空间k-近邻分类时,每类选取4个训练样本的情况下,前者识别率达到88.98%,后者为91.01%。该方法大大节省了计算机的物理开销和时间开销,为临床诊断和治疗提供决策支持。