基于压缩感知的癌症基因表达数据的分类研究

来源 :中国计量学院 | 被引量 : 0次 | 上传用户:peng737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的进行,DNA微阵列技术运用到肿瘤疾病研究中,产生了大量维数高、样本少的癌症基因表达数据。如何从海量的基因表达数据中发现和提取少量具有分类识别能力和最小冗余度的特征基因,挖掘出有用的知识和信息,比较全面地认识癌症的基因本质、获得对“癌症-基因”间关系的真实反映,对推进恶性肿瘤的临床诊断与治疗,进一步研究癌症、发现癌症的致病机理是非常重要的。本文利用压缩感知的理论对癌症基因表达数据进行分类,把癌症基因表达数据分类问题归结为求解测试样本对于训练样本的稀疏表示问题,通过求解癌症基因表达数据的重构来解决;通过计算重构的残差,根据残差来判断测试样本类别。这种分类方法不需要反复训练来构建分类器,只要测试样本在训练样本上的投影足够稀疏,就能取得比较好的分类效果,并且耗时比较少。本文主要研究内容如下:1.高维癌症基因数据的降维研究。利用基于信噪比(SNR)、主成分分析法、基于Relief过滤法、基于Fisher准则这4种方法将癌症基因数据进行降维,然后使用压缩感知方法对降维后的数据进行分类以评估降维效果。研究表明,主成分分析法后的特征更有利于求解稀疏解,分类精度比较高。2.癌症基因表达数据的重构算法。运用训练样本组成的完备字典,通过信号的重构算法,找到用完备字典中表示测试样本的稀疏解,然后计算残差,残差最小的项即为测试样本的类别。在重构算法中利用L1范数最小化来求解稀疏解,与Bagging神经网络、SVM和ELM的识别效果进行比较和分析,实验表明即使是分类效果比较差的Brain数据集,也能达到平均80%左右的分类精度。3.重构算法的速度优化。在信号重构算法中利用正交匹配追踪算法来求解,分类精度与L1范数最小化的分类方法相差不多,但比L1范数最小化算法节省约50%的时间,从而显著提高了癌症基因表达数据的重构速度,有利于运用于低计算能力或者高计算速度要求的设备中。
其他文献
背景和目的胃癌世界发病率在肿瘤中占第四,肿瘤相关死亡率高居第二。有研究报道早期胃癌患者的5年生存率达到95%,晚期胃癌的生存率只有10%~20%,严重危害着人类的健康。目前国际公
近年来,互联网已经渗入到社会的各项事业发展中,"互联网+"时代下大学生创业已然成为缓解大学生就业压力的一种有效方式。本文从主观意愿、个体素质、家庭环境、创业教育和社
近年来,随着智能手机等移动终端的普及以及3G/4G网络、WiFi无线网络的不断发展,网络视频越来越受到网民的追捧。截止2015年12月,已经有超过七成的网民在众多互联网应用中选择
手机银行,指的是通过移动通信技术和不同设备实现各类金融业务进行实时办理的一种服务形式。伴随着移动通信技术的发展和移动商务的进步,手机银行业务正在逐步发展壮大起来,
在流域水环境的污染与治理的过程中存在复杂性,可能会涌现一些难以把握的复杂系统行为,使得认识流域污染问题及其制定有效的控制方案变得困难。这要求研究者和政策制定者必须
研究了不同氮磷肥比例对烤烟生长发育和产质量的影响。结果表明,氮磷肥比例为1:0.8时能改善烤烟农艺性状和产质量,与未施磷肥处理相比,在现蕾期最大叶面积增加325cm^2,产量增加150.6
第一部分超声弹性定量分析在乳腺肿瘤诊断中的应用研究目的:探讨超声弹性应变率比值在乳腺肿瘤诊断中的应用价值。方法:对102例患者116个乳腺肿块首先行高频超声检查,观察肿瘤的
"清法"是中医治则治法体系中重要组成之一,现代医学广泛运用于传染病、感染性疾病、心血管疾病、肿瘤等各种疾病的防治。临床把清法归纳为清解、清透、清化、清利、清下、清