基于冗余度和多基因分析的后过滤信息基因选取方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:xue5559
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基因表达谱数据分析和肿瘤诊断中,信息基因的选取是很重要的问题。本文基于冗余度和多基因分析提出了一种后过滤信息基因选取算法,即用于选取能够区分正常样本和癌变样本(或者两类肿瘤)的信息或特性基因。该信息基因选取算法利用相关性度量和建立在统计检验基础上的近似马尔可夫毯过滤掉冗余的基因。为了避免去除冗余的方法滤掉过多的基因,我们将进一步衡量这些基因中多个基因作为一个组合所起的分类效果,而不只是单纯地考虑单个基因的分类效果。在实际操作中,我们采用两种方法选取信息基因:第一种方法是先用传统单基因选取方法从基因表达谱中得到信息基因集合,然后应用后过滤信息基因选取算法对其进行过滤以得到更紧凑的信息基因集合;第二种方法是首先利用无监督聚类算法对基因表达谱数据中的基因进行聚类,然后在所得到的每一类上应用后过滤信息基因选取算法。实际上,本文首次将DSRPCL(DistanceSensitiveRivalPenalizedCompetitiveLearning)算法应用于基因的非监督聚类。这种聚类方法的好处是可以自动地确定类别的个数,而无须人为地指定一个数目。本文在结肠癌和白血病两个数据集上做实验,用支持向量机(SVM)在选取出来的信息基因上建立肿瘤诊断系统,也就是一个二元分类器,用来对未分类的新样本进行预测。和传统的信息基因选取方法相比较,通过后过滤信息基因选取算法能够得到更加紧凑的信息基因集合,由此建立起来的诊断系统可以用更少的基因达到较高的诊断正确率。
其他文献
目前,LANDSAT-8的地面处理系统只能处理WRS(World ReferenceSystem)分幅体系下的标准景数据,其得到的标准景产品覆盖区域较小,难以满足大区域遥感应用的需求。传统的获取长条带
稀疏微波成像是将稀疏信号处理引入微波成像当中而形成的新的理论、体制和方法,与传统雷达成像相比,稀疏微波成像可以降低现有微波成像系统采样要求,减少数据量,降低系统复杂度,具
随着信息技术的发展,多媒体数据的表现形式趋于多样化,伴随网络图像产生了数量庞大的自然数据资源。除图像本身之外,还存在如环绕文本、用户标签、地理位置/时间信息等各类形式
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
图像/视频通信以其直观性、确切性、生动性的特点在多媒体通信中占有重要的地位。随着多媒体技术的发展,特别是Internet的发展,图像/视频的实时传输日益成为计算机通信领域中倍
无线局域网(WLAN)是采用无线传输媒介的计算机局域网,由于具有组网灵活、支持移动、网络运营成本低、信道速率高等特点,近年来发展势头十分迅速,已经被广泛的应用在各种场合。对
光系统Ⅱ(PSⅡ)是由多个亚基组成的色素蛋白复合体,它催化光驱动的水的裂解和醌的氧化。由于其结构的复杂性,PSⅡ的生物发生和组装需要核基因与叶绿体基因编码的蛋白以一定次序
建筑数字化和重建是数字城市和古建筑保护中的重要内容。激光雷达技术为建筑三维重建提供了可靠的数据源,它通过对目标对象发射高频率的激光脉冲,直接获取其表面高密度、高精度
本文的目的是研究具有强抗干扰能力的扩频通信系统。在现代战争中,各种干扰给军事通信带来很多不利影响。扩频技术特别是FFH/DS混合扩频技术,以其强大的抗干扰能力近年来受到广
随着高速公路的不断建成通车,省域高速公路网络已颇具规模,联网监控成为整个高速公路监控系统发展的必然趋势。联网监控系统是一个分布式的,涉及许多异构监控网络系统协同工作的