基于基因表达数据的信息基因选择研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:pailfj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症的治疗是全世界关注的焦点之一,由于癌症的复杂多变性使得癌症的治疗成为医学界的一大挑战。癌症的本质是由细胞内基因差异表达导致的一类基因疾病。DNA芯片技术是生物医学领域的一个重大突破,可以在一次实验中同时得到数以千计的基因表达数据,该技术的发展为癌症的治疗提供了新的思路。在癌症的检测、治疗和预后方面,利用基因表达数据,定位癌症相关基因,识别具有类似形态表征的癌症的不同类别或子类具有重要意义。基因表达数据包含大量基因与相对较小的样本,容易引发“维数灾难”,导致传统的数据分析技术很难对其进行有效的处理,而且癌症通常只被一些表达水平改变的基因所标记。因此,如何对基因表达数据降维,去除冗余基因,选择出与癌症相关的信息基因子集以提高癌症类型识别的准确率,在基因表达数据的研究中是至关重要的。鉴于此,本文围绕信息基因选择算法展开研究,致力于从海量数据中选取数量较少的与癌症相关性较强的信息基因,主要研究工作如下:1.基于SCAD算法的思想,提出了一种新的信息基因选择方法——KBCGS算法,将监督学习和无监督学习结合起来,根据基因的判别能力对基因进行加权,实现聚类目标函数最小的同时获得基因的最优权重,根据基因的最优权重进行基因选择。基于KFCM算法,KBCGS算法引入了核函数和全局自适应距离,考虑到数据间的非线性关系,可以有效去除冗余基因,提高了算法的有效性。该方法高效,简单,易于扩展。2.结合KNN、SVM分类器在八个经典数据集上进行实验, 将KBCGS算法与五个流行的基因选择方法进行对比,结果显示KBCGS算法取得了更好或者相似的结果。尤其是在分类准确率较低的Lung和NCI60数据集上,本文提出的方法的分类准确率可达到87%和80.52%,显著高于其他方法,从而验证了本文提出的方法的有效性。3.在Prostate、AMLALL和Lymphoma数据集中,研究利用本文提出的方法选择出的信息基因的生物意义,通过在NCBI查询基因的注释及与前人研究中选择出的基因进行对比,可以发现我们选择出的信息基因是具有较强的生物解释意义的,可以作为“生物标记”于临床上应用,对癌症进行检测,从而表明了本文提出的方法的实际意义。
其他文献
公立医院绩效管理作为医院工作实施中比较重要的一项工作,对于公立医院管理工作实施而言,绩效管理可以转变医院管理方式,实现了对医院管理工作实施的科学性控制。但是在很多
在我国大力实施乡村振兴战略的时代背景下,稳步提升农业现代化中的农业信息化水平,具有重要的战略意义。基于此,本文重点论述农业信息化建设中的主要问题,提出针对性的解决策
匠人精神是产品质量的保证,是民族工业得以维继的支撑,是赢得市场竞争的关键,在产品生产实现流水线操作的今天,继承和发扬匠人精神有着新的历史主题。全文通过对中国、日本匠
税收负担是税收制度的核心问题。.税负水平直接关系到国家与纳税人及各纳税人之间的分配关系.是一个十分重要的理论与实践问题。确立合理的税负水平,是税收得以发挥其职能作用的
"三权"分置制度是深化农村土地制度改革的重大举措。以此为指导的土地流转模式正在我国广大农村地区进行广泛的探索与推广,"塘约道路"提供了新的实践范式,具有重要的参考价值
一个企业能开发出好的产品,并不代表其在市场上一定会成功。在经历了从市场需求品牌到品牌寻找市场的过程后,商品的内涵日益丰富,所包含的服务不断增加,与顾客进行深层次、全
运行支撑系统(RTI)是高层体系结构(HLA)仿真系统运行的核心支撑软件,RTI性能直接影响到仿真系统开发的成败。首先全面分析并定义了RTI性能;接下来从数据交换性能和RTI服务性
为了解U型通风下采空区遗煤层自然发火过程中,不同时间的温度和升温区的变化,提出使用颗粒流理论为基础的模型。解决氧的等效、流动和与煤反应的3个基本问题,并用FISH予以实
油库投产后再次在油库内进行动火作业存在很大的安全风险,传统的施工方式存在耗时长,费用高,尤其是施工人员的人身安全得不到保障;为了避免在对投产后油库的动火施工中的不安
行政公益诉讼的原告资格是近年来讨论比较多的问题。目前我国行政诉讼法赋予了检察机关行政公益诉讼原告资格。这对于检察机关提起行政公益诉讼而言提供了法律上的依据,完善