论文部分内容阅读
随着DNA微阵列技术突飞猛进的发展,同时检测成千上万条基因的表达水平成为了现实。如何用数据挖掘技术快速准确地获取有效的基因表达数据的生物信息,成为了近年来研究的热点。聚类分析技术由于其自身特点,在基因表达数据的分析中得到了广泛应用,但是每种聚类算法都有弊端,所以急需寻找新的聚类分析方法。支持向量机(SVM)算法作为一种有监督的聚类分析算法,在高维小样本数据的分类中取得了良好的效果,得到了很多研究者的青睐。而肿瘤基因表达数据满足支持向量机的特点,所以本文主要针对基于支持向量机的肿瘤基因分类做了相关的研究,主要的内容和创新有:(1)尽管支持向量机方法适合高维数据分析情况,但是基因表达数据通常都是上千维的,这样使算法时间成本比较高。基于主成分分析(PCA)和核主成分分析(KPCA)的降维方法,在缩短算法运行时间的同时,还可以将有用的特征信息进行整合。本文通过三组实验数据,比较了PCA-SVM和KPCA-SVM算法在累计贡献率达到100%,95%,90%时不同参数搜索范围的分类准确率。实验结果表明,基于主成分分析的支持向量机分类准确率的变化与累计贡献率的变化无固定规律,但基于核主成分分析的支持向量机分类准确率随着累计贡献率的降低而降低或保持不变。(2)在基于网格搜索的参数寻优方法中,为了能寻找到全局最优参数解,通常选取较大的参数范围和较小的搜索步长来获得良好的分类准确率,但是这以牺牲时间效率为代价。本文提出了改进的网格搜索方法,通过折半查找的思想,缩短了搜索的范围。通过三组数据集的实验分析,该算法与传统的网格搜索算法相比,在分类准确率提高或保持不变的前提下,大大降低了搜索时间。(3)通过标准支持向量机(C-SVM)算法的性能分析,从理论上推导出支持向量机对各类数量不平衡的样本分类效果并不理想。当各类样本数量相差很大时,应用C-SVM分类时,训练样本的分类准确率很高,而预测样本的分类准确率偏低,样本数多的类的分类准确率比样本数少的类的分类准确高。本文在样本与类中心距离关系的基础上,引入了样本与其它样本的距离关系,提出了一种惩罚加权支持向量机算法(WC-SVM),该算法考虑了每类样本的疏密分布,对不同的样本设计了不同的惩罚权值,补偿了样本少的类对超平面贡献低的问题。通过实验表明,WC-SVM对样本少的类的分类准确率有所提高,错分样本数普遍减少。