支持向量机在基因表达数据分析中的应用研究

被引量 : 0次 | 上传用户:a894918572317531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着DNA微阵列技术突飞猛进的发展,同时检测成千上万条基因的表达水平成为了现实。如何用数据挖掘技术快速准确地获取有效的基因表达数据的生物信息,成为了近年来研究的热点。聚类分析技术由于其自身特点,在基因表达数据的分析中得到了广泛应用,但是每种聚类算法都有弊端,所以急需寻找新的聚类分析方法。支持向量机(SVM)算法作为一种有监督的聚类分析算法,在高维小样本数据的分类中取得了良好的效果,得到了很多研究者的青睐。而肿瘤基因表达数据满足支持向量机的特点,所以本文主要针对基于支持向量机的肿瘤基因分类做了相关的研究,主要的内容和创新有:(1)尽管支持向量机方法适合高维数据分析情况,但是基因表达数据通常都是上千维的,这样使算法时间成本比较高。基于主成分分析(PCA)和核主成分分析(KPCA)的降维方法,在缩短算法运行时间的同时,还可以将有用的特征信息进行整合。本文通过三组实验数据,比较了PCA-SVM和KPCA-SVM算法在累计贡献率达到100%,95%,90%时不同参数搜索范围的分类准确率。实验结果表明,基于主成分分析的支持向量机分类准确率的变化与累计贡献率的变化无固定规律,但基于核主成分分析的支持向量机分类准确率随着累计贡献率的降低而降低或保持不变。(2)在基于网格搜索的参数寻优方法中,为了能寻找到全局最优参数解,通常选取较大的参数范围和较小的搜索步长来获得良好的分类准确率,但是这以牺牲时间效率为代价。本文提出了改进的网格搜索方法,通过折半查找的思想,缩短了搜索的范围。通过三组数据集的实验分析,该算法与传统的网格搜索算法相比,在分类准确率提高或保持不变的前提下,大大降低了搜索时间。(3)通过标准支持向量机(C-SVM)算法的性能分析,从理论上推导出支持向量机对各类数量不平衡的样本分类效果并不理想。当各类样本数量相差很大时,应用C-SVM分类时,训练样本的分类准确率很高,而预测样本的分类准确率偏低,样本数多的类的分类准确率比样本数少的类的分类准确高。本文在样本与类中心距离关系的基础上,引入了样本与其它样本的距离关系,提出了一种惩罚加权支持向量机算法(WC-SVM),该算法考虑了每类样本的疏密分布,对不同的样本设计了不同的惩罚权值,补偿了样本少的类对超平面贡献低的问题。通过实验表明,WC-SVM对样本少的类的分类准确率有所提高,错分样本数普遍减少。
其他文献
<正>《天鹅的故事》是四年级下册(苏教版)的课文,写了俄罗斯老人斯杰潘看到一只老天鹅带领一群天鹅勇敢破冰的故事。近年来,我三次公开执教《天鹅的故事》第二课时,分别制定
<正>1常用的汽车门窗玻璃升降器优缺点汽车门窗的玻璃升降器设计常采用叉臂式升降器与绳轮式升降器两种形式(图1叉臂式升降器,图2绳轮式升降器),他们各有优缺点;叉臂式升降器
简述传统混凝土护坡对河道生态环境的影响,介绍南京市秦淮新河生态护坡工程,该工程结构是在平台上坡铺设草皮,平台下坡采用多孔无砂混凝土预制块,多孔无砂混凝土预制块中预留
在城市基层行政组织职能作用的发展与演化过程中存在着一些不容忽视的问题。在综述我国城市基层行政组织的现状与特征基础上,选取"北京西城区百万庄西社区"为调研点,剖析了其
利用对甲苯磺酸为催化剂,使肉桂酸与醇发生酯化反应合成了肉桂酸甲酯、肉桂酸乙酯、肉桂酸正丙酯、肉桂酸正丁酯、肉桂酸异丁酯、肉桂酸正戊酯和肉桂酸异戊酯,测定了各种酯的
在世界文学长廊中,夏洛克、阿巴贡、葛朗台、泼留希金和严监生都堪称吝啬鬼的典型。四大吝啬鬼在行为表现、个性特征和精神实质等方面有很多共同之处,但是因为所处的社会和文
自20世纪60年代以来,新加坡建屋发展局就借鉴西方居住区理论在亚洲创造性地拟定了一套新镇发展模式并开发了23个新镇。经历了"邻里组团中心"、"棋盘式"模式之后,新加坡以榜鹅
随着社会经济的发展,人们的物质世界和精神世界都发生了巨大的变化,同时审美趣味和艺术需求也逐步提高。影视文学作为一种文学体裁,至今的归属问题仍存在着来自多方的质疑。