基于基因表达谱的肿瘤分类特征基因选择研究

被引量 : 15次 | 上传用户:emma880222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术因其能同时快速测量成千上万条基因的表达水平,被广泛地应用于基因组层次上研究细胞的基因表达模式。随着微阵列技术广泛运用到肿瘤疾病研究中,产生了大量维数高、样本少的肿瘤基因表达谱数据。如何从海量的基因表达谱数据中发现和提取少量的具有分类识别能力且最小的冗余度的特征基因,挖掘出有用的信息和知识,更加全面的认识肿瘤的基因本质、获得对“肿瘤-基因”间关系的真实反映,对推进肿瘤学的基础研究和肿瘤的临床诊断与治疗,进一步研究肿瘤、发现肿瘤的致病机理是至关重要的作用。本文的主要研究是针对肿瘤基因表达谱的肿瘤分类特征基因选择,取得了如下的成果:1.根据肿瘤微阵列数据的特点,提出了一种基于相关性改进的SVM-RFE算法。算法引入相关性的评价基因的相互之间的关系,在寻求数据最小冗余的同时,考虑了如何提高特征选择的速度。在白血病微阵列数据集实验中证明,新方法在没有降低分类精度的情况下大大改进了标准SVM-RFE算法效率。2.由于传统了K-均值算法需要人为设置的聚类数量,然后再对基因表达谱数据进行聚类,而现实中基因表达谱数据的最佳聚类的数量是未知的。在本文中,我们利用数据内在的统计特性对传统的K-均值算法进行改进了,提出了启发式K-均值聚类算法,能根据基因表达谱数据内在的统计特性自我调整聚类的数量,得到比较好的聚类结果。实验结果表明该算法能根据基因表达谱的相似性把基因表达谱数据集分成次最佳的类数。3.在基因表达谱的特征基因选取中,如果选择单纯使用Filter算法或Wrapper算法具有明显的缺陷:Filter方法选取的特征具有高冗余性、分类精度低;Wrapper方法计算复杂度高。为了结合Filter、Wrapper和聚类算法的优点,本文提出了一种新颖的混合特征基因选择方法,Filter Clustering SVM-RFE方法。该算法参数设置方便,无须搜索,运行速度快,也不必事先指定精确的聚类数量(像常用的聚类算法那样)。在白血病和结肠癌数据集的分类特征基因选择实验中获得了很好的效果。
其他文献
对学生问题行为的干预方法有很多,本文介绍的正向行为支持(PBS)和功能性行为评价(FBA)对学生的问题行为干预具有重要作用。PBS以行为科学为基础,以关注学生的生活质量为目的,
本文作者结合《四川省有线广播电视网络股份有限公司客户服务工作规范》的相关要求,主要就如何做好营业厅的管理,提高服务质量的措施进行了阐述。
新疆正处于旅游业大发展时期,自治区政府已将旅游业定为新疆的支柱产业。在这样一个大背景之下,对巴州旅游研究的重要性日益突出。然而与国际和国内相关理论研究相比,巴州的
过去几十年,桥梁工程往往只注重建设成本的一次性投资支出,而很少考虑建成后需要正常维护的长期成本,从而造成桥梁结构的耐久性低,服务寿命短的问题,给社会带来越来越重的经
随着多普勒天气雷达的应用越来越广泛,业务应用和理论研究的快速发展,雷达资料的分析处理水平也得到了很大的提高。本文设计的多普勒天气雷达产品终端系统既满足了业务上的需
为了解北京东灵山辽东栎林主要树种的叶功能性状差异性,分别从种间和种内两个方面,对东灵山辽东栎林先锋树种棘皮桦、优势树种辽东栎和常见树种五角枫的比叶面积(SLA)、叶干
近几年来,我国经济快速发展,工程建设越来越多,而工程造价管理直接关系到工程的建设效益,但是目前工程造价信息管理存在很多不足之处,造成了严重的资本浪费,损害了建设企业的
"全纳教育"是有影响的国际共识之一。意大利、美国、英国等发达国家是世界上较早实施全纳教育政策的国家,拥有成熟和完善的"全纳教育"体系。将这些国家的"全纳教育政策"与中
2006年以来,由美国的次级贷款引发的金融危机对我国经济及金融市场产生了重大冲击。本文分析了整个样本期内的风险特征,TARCH模型表明,在此期间市场不存在信息的非对称性效应
整体经济环境的变化导致了股票收益和风险的时变性,从而使得行业板块系统风险β系数也表现出时变特征。本文以沪深股市中的24个行业板块为研究对象,运用Markov区制转换方法客