论文部分内容阅读
癌症的正确分类是现代癌症治疗的重要组成部分,准确的癌症诊断可以为癌症患者采取适合的治疗方法提供帮助。传统的癌症诊断方法主要依据症状、体征、影像检查、组织细胞病理等临床和组织病理学信息进行诊断,存在诊断时间长,花费高等缺点。另外,相当多的恶性肿瘤形态特征并不明显,难以分辨,造成基于组织检查或者影像分析的癌症诊断方法精度不高,频繁错过患者的最佳治疗期。由此,许多研究者开始对分子水平上的“指纹”----DNA微阵列进行研究,从而从分子水平利用基因表达数据对癌症进行分类和预测,希望可以为癌症的诊断和治疗提供强而有力的帮助。DNA微阵列技术又称基因芯片,是多种技术的结合,发展十分迅速。采用DNA微阵列技术,能够同时观测生物样本中成千上万个基因的表达水平,可以从分子水平上发现不同癌症样本以及正常样本中基因表达的异同,从而为癌症更进一步的准确分类提供了可能。由于DNA微阵列自身的特点,在进行癌症分类之前必须要进行特征基因选择。同时,传统模式识别方法存在过度适应,学习和识别时间长,学习结果不易分析等局限,考虑到演化超网络能够表达复杂数据的内在结构,可以有效挖掘特征与特征、特征与类别之间的关联程度,适合解决基于DNA微阵列的癌症分型问题,所以本文采用演化超网络作为基分类器,并对多个基分类器进行集成,进而解决多种癌症数据集的分类问题。
本研究主要内容包括:⑴DNA微阵列是一种样本数量较少,维度很高,噪声和冗余基因多的数据,为了能够构建一个高效准确的癌症分型系统,本文探索了五种基于过滤的特征基因选择方法,分别通过与演化超网络分型系统结合,寻找与分类器比较适合的选择方法。⑵针对目前超网络对多类型癌症分型研究较少的问题,提出了基于演化超网络的多类型癌症分子分型方法。主要方法是采用一对多的方式,把多类问题转化为二类问题。先生成一系列的二类分类器,然后把多个二类分类器集成起来,成为最终的多类型分型系统。实验表明文中构建的系统具有与其他传统分类方法可比的识别率,同时有利于挖掘癌症分类相关基因,具有良好的学习结果可读性。⑶为提高系统的识别率,稳定性及泛化能力,本文引入了选择性集成方法。首先从原始训练集中随机选择样本来训练有差异的基分类器;然后采用遗传算法对基分类器进行选择和集成,形成最终的多分类器集成系统;最后,利用该系统对独立的测试集进行测试,验证该系统的性能。实验结果表明,同单一分类器相比,该方法建立了一个稳定、性能良好的癌症分子分型系统。