论文部分内容阅读
癌症的治疗是全世界关注的焦点之一,由于癌症的复杂多变性使得癌症的治疗成为医学界的一大挑战。癌症的本质是由细胞内基因差异表达导致的一类基因疾病。DNA芯片技术是生物医学领域的一个重大突破,可以在一次实验中同时得到数以千计的基因表达数据,该技术的发展为癌症的治疗提供了新的思路。在癌症的检测、治疗和预后方面,利用基因表达数据,定位癌症相关基因,识别具有类似形态表征的癌症的不同类别或子类具有重要意义。基因表达数据包含大量基因与相对较小的样本,容易引发“维数灾难”,导致传统的数据分析技术很难对其进行有效的处理,而且癌症通常只被一些表达水平改变的基因所标记。因此,如何对基因表达数据降维,去除冗余基因,选择出与癌症相关的信息基因子集以提高癌症类型识别的准确率,在基因表达数据的研究中是至关重要的。鉴于此,本文围绕信息基因选择算法展开研究,致力于从海量数据中选取数量较少的与癌症相关性较强的信息基因,主要研究工作如下:1.基于SCAD算法的思想,提出了一种新的信息基因选择方法——KBCGS算法,将监督学习和无监督学习结合起来,根据基因的判别能力对基因进行加权,实现聚类目标函数最小的同时获得基因的最优权重,根据基因的最优权重进行基因选择。基于KFCM算法,KBCGS算法引入了核函数和全局自适应距离,考虑到数据间的非线性关系,可以有效去除冗余基因,提高了算法的有效性。该方法高效,简单,易于扩展。2.结合KNN、SVM分类器在八个经典数据集上进行实验, 将KBCGS算法与五个流行的基因选择方法进行对比,结果显示KBCGS算法取得了更好或者相似的结果。尤其是在分类准确率较低的Lung和NCI60数据集上,本文提出的方法的分类准确率可达到87%和80.52%,显著高于其他方法,从而验证了本文提出的方法的有效性。3.在Prostate、AMLALL和Lymphoma数据集中,研究利用本文提出的方法选择出的信息基因的生物意义,通过在NCBI查询基因的注释及与前人研究中选择出的基因进行对比,可以发现我们选择出的信息基因是具有较强的生物解释意义的,可以作为“生物标记”于临床上应用,对癌症进行检测,从而表明了本文提出的方法的实际意义。