论文部分内容阅读
支持向量机作为分类的一个有效的工具,在近些年来取得了快速的发展,是上世纪90年代Vapnik提出的。支持向量机在其提出的时候,就开始受到了人们的广泛关注,并且凭借其自身良好的推广能力和泛化能力,受到了全世界各国研究者的一致好评和追捧。支持向量机是在统计学习基础下根据结构风险最小化原则提出的一种新的机器学习工具,作为一种重要的工具在处理高维小样本问题时显示出了极其强大的优势。随着支持向量机的不断发展,近年来在实际生活和工作领域中的应用也越来越广泛。在生物信息学的发展,通过制备的基因芯片可以得到所谓的基因表达谱数据,基因表达谱数据的典型特点是样本数目比较少,基因数目相对较高。基因表达谱数据在临床应用中越来越广泛,该数据在日常的临床医学肿瘤癌症诊断,及其正常患病样本的区分有着广泛的应用。降维作为一种重要的特征提取的工具,在处理高维数据的时候,显示出其强大的力量,能够有效地解决高维数据处理时带来的维数灾难等问题。降维按照处理方式不同分为:全局降维和局部降维。线性降维和非线性降维。通过对数据进行降维处理可以提取出高维数据在低维空间的本质的特征,提取出高维数据的本质特征之后,对数据进行分类处理。通过降维方法对数据处理,能够降低数据的维数,同时减小数据计算的时间复杂性,而且降维之后的数据去除了数据中存在的冗余信息,能够提高数据处理的精度。降维作为一种有效的数据处理方法在现实生活中处理高维数据越来越广泛,随着数据量的不断增加,降维的作用显得越来越重要。通过降维之后,能够提取出数据的本质特征,结合支持向量机分类,可以达到减少时间复杂性和提高精度的目的。本文首先对研究的基因表达谱数据做了简要的介绍,对这种数据的研究方向和发展趋势做了说明。然后简要介绍了基因芯片技术的特点以及用于肿瘤分类的基本流程。最后对基因表达谱数据的处理过程,其中包括特征是如何选择,特征的提取情况,以及分类器的分类情况做了分析,这里主要介绍了降维和分类的方法的优势。本文的工作主要如下:1.对基因表达谱数据进行分析,找出跟疾病有关的最少特征基因,并用一个较好的分类器进行分类预测。采用新的改进的记分准则RFSC去除分类无关基因;2.采用降维技术对“小样本,高维数”的基因表达谱数据进行特征提取,降低数据的维数,同时提高数据处理的精度,减少处理时间;3采用降维和分类相结合的处理手段,提高了实验的精度。并且能够有效的区分正常样本和患病样本;