基于SVM算法的癌症基因数据分类研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:hanosn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是对人类生命构成严重威胁的主要疾病之一,而癌症的早诊断是提高癌症患者成活率的关键。随着DNA微列阵技术的飞速发展,海量的癌症基因表达数据得以积累。在分子生物学的基础上,如何根据这些庞大的基因表达数据进行癌症的早期诊断已成为后基因组时代的研究热点,但是癌症基因表达数据一般都具有高维数、样本数量少、非线性等特征,这就给基因数据的分类带来了很多困难。针对以上基因表达数据的普遍特征,本文运用一种基于支持向量机的分类方法对癌症数据样本进行分类。SVM是在统计学理论的基础上发展起来的新一代机器学习方法,它采用结构风险化原则,代替了经验最小化原则,成功应用核函数将非线性问题转化为线性问题,在解决有限样本、非线性及高维模式识别问题中表现出了许多特有的优势。尽管SVM有效的解决了欠学习和过学习的问题,但是基因表达数据样本数少、维数高的特性对数据分类准确度的影响难以避免。如果直接对原始数据进行分类,工作量大且得不到比较满意的结果。因此,数据降维就成为癌症基因数据分类的关键性问题。本文首先运用数据降维方法,对原始基因表达数据进行降维,得到较低维度的数据之后,再对其进行SVM分类。通过多种降维方法的比较以及SVM参数的合理设置,可以取得较高的癌症诊断精度。文章中使用的数据降维方法有稀疏主成分分析,广义判别分析和拉普拉斯特征值映射法等。本文的研究重点是如何利用降维方法优化数据,通过选择两组网络公开的数据集进行相关实验,可得对于Prostate Tumor数据,GDA的降维效果最佳,而对于Leukemia数据,MDS的降维效果最佳。实验结果表明:寻求最优的降维方法以及合理的调整SVM参数,可以有效的优化基因数据,提高SVM的分类性能,取得较高的分类精度。
其他文献
目的:运用关联规则、Logistic回归方法,分析类风湿关节炎贫血患者的炎症、免疫、代谢指标对红细胞参数的影响,并探究其危险因素。方法:运用SPSS Clementine 11.1软件Aprior模
利用最新的MOD IS(中分辨率成像光谱仪)气溶胶光学厚度(AOD)反演算法,反演珠江三角洲及香港地区2008年高分辨率(1km×1km)AOD分布,并与AERONET观测数据进行了验证(r=0.917).
通过理论基础和数据来分析我国出口贸易在低碳经济下的发展现状,进而探究我国的出口贸易在发展过程中纯在的问题。由此,提出在低碳经济的背景约束下优化出口贸易结构、利用可
企业信息化是目前企业内部管理发展中的一项重要组成部分,是现代企业发展的必然选择,如何管理、发展和建设企业信息化,提高企业信息化应用深度,加快企业信息化发展和建设水平
<正>近年来,随着人们生活水平的提高,一股"宠物热"悄然到来,养宠物的人们越来越多,宠物品种也日趋繁多。国内也因此兴起一种新型行业——宠物行业。随着我国宠物行业的兴起和
《后宫甄嬛传》中的甄嬛,举世无双,蕙质兰心,钟灵毓秀,她在进宫之前和初进宫时表现的单纯善良不谙世事,当她经历了姐妹的背叛,敌人的打压,真命天子的谎言及与清河王的真爱姻
目的研究石榴籽油的稳定性。方法对有机溶剂、光、热、氧化剂、还原剂、食品添加剂、金属离子等可能对石榴籽油稳定性造成影响的因素,进行综合研究。结果石榴籽油在各种有机
改革开放以来,我国现代化建设已经取得了长足的进步,各类设施的建设工作逐渐步入正轨。在此期间,供水工程作为推动我国发展的基础性工程,影响着居民的正常生活和企业的生产工
蜱类作为重要的媒介生物可传播多种人畜共患病原体,且随着全球气候变化不断有新的病原体出现,其危害性备受关注。而蜱类基础生物学研究远落后于昆虫研究。近年来,随着分子生
目的对比分析不同清洗方法对中度污染器械清洗效果,从而探索出一种值得应用和推广的清洗方法。方法在此次研究中选取我院在2015年9月至2018年2月供应室回收的700件中度污染器