论文部分内容阅读
由于各种癌症在病原上有其自身的特点,为了达到最大疗效和最小毒副作用,需要制定有针对性的治疗方案,因此癌症的分类是治疗的关键。当前临床上的癌症诊断主要依据形态学信息,但有些在组织病理上相似的肿瘤也可能有不同的临床表现,需要截然不同的治疗方案。近年来,DNA微阵列技术的发展为癌症研究提供了一种新的途径,通过微阵列数据的表达值可以寻找基因之间的复杂关系,为研究癌症的发病机理、对其进行检测并筛选相应的治疗药物提供了依据。利用DNA微阵列数据对癌症进行分类已成为当前癌症研究的重点之一,但由于微阵列数据集具有小样本、高维度、高噪音、高冗余、数据分布不均衡等特点,也为基于DNA微阵列数据的癌症分类带来了巨大的挑战。由于DNA微阵列数据的独特性,使用常规的模式识别方法并不一定能获得理想的分类效果。针对当前基于DNA微阵列数据的癌症分类中存在的学习和识别时间长,学习结果可读性差等问题,为了更好地解决微阵列数据的分类问题并进一步提高系统的识别率,本文提出了一种基于演化硬件的癌症分类方法以建立一个高效、准确的分类系统。与结构和功能一次性固定、不可逆转的传统硬件电路相比较,演化硬件是一种基于可编程逻辑器件,通过应用演化算法能够自动的、动态的改变其自身结构和功能从而适应其周围环境变化的新型电子器件。演化硬件分类系统基于可编程逻辑器件的高效、快速等特性,具有可在线适应、实时性强、学习结果可读性好等优点。为了解决所提出的上述问题,本文在以下方面进行了深入研究。第一、针对单个演化硬件分类器存在的稳定性差、识别率低等问题,建立了用于微阵列数据分类的演化硬件多分类器模型。对DNA微阵列数据采用基于过滤的信噪比特征选择方法,然后使用虚拟可重构结构的演化硬件多次对数据集进行学习生成不同的基分类器,最后采用大多数投票法对多个基分类器的输出结果进行集成。为了降低系统的演化难度,在演化过程中采用了增量演化策略;同时使用流水线技术降低系统的演化时间。第二、为了降低系统的硬件资源消耗,并进一步提高系统的识别率,又引入了选择性集成学习方法。首先把原始训练集分为训练集和验证集,为了增加演化硬件基分类器的差异性进行了多次随机划分,通过对训练集的学习生成不同的基分类器;然后用对应的验证集测试基分类器的性能,并用演化硬件的输出误差作为评判基分类器优良的标准;最后对基分类器的误差值进行排序,选取误差值较小的基分类器用于最终的系统集成。对不同数据集的实验结果表明,该方法建立了一个稳定、高效的DNA微阵列数据分类系统。