论文部分内容阅读
癌症是复杂的遗传性疾病,具有巨大的危害性及多发性,成为影响人类健康的重大疾病,其发病机制从根本上来说都和基因息息相关。基因微阵列分类技术能够帮助人类发现正常细胞组织与疾病组织之间的基因的本质差异、很好地理解肿瘤发病机制,识别致癌基因,对癌症的临床诊断及治疗具有非常深远的意义。然而,由于基因微阵列数据具有高维、高噪音、样本少等特点,传统的统计方法很难对其进行有效的分类,为了解决上述问题,本文在深入分析微阵列分类技术的基础上,开展了相关的研究。主要的内容如下:决策树(DT)和大覆盖规则(LCR)微阵列分类方法在一定程度上体现了基因的相关性,但缺乏稳定性且算法收敛慢,容易产生大量冗余分类规则。本文基于遗传编程(GP)提出一种最优规则遗传算法(BRGA)对分类规则进行优化的方法,获取最佳分类规则集,此算法可以调整分类器模型的相关参数,在适当增加迭代基础上大幅提高分类的精确度,具有相当的灵活性和可理解性。传统的显露模式EP微阵列数据分类方法,在EP获取过程中的基因属性选择部分常常采用离散信息熵方法或其它复杂的算法来去除无意义的噪声基因,得到最具辨识力的属性基因,进而产生EP分类模型来预测未知样本。但这些方式计算较为复杂且开销较大,不易于理解。本文提出的基于等宽分割基因属性的跳跃显露模式(F_JEP)算法,将基因微阵列数据定义为函数形式,便于表达。在属性选择环节,基于等宽方式的离散方法,采用一种极为简易的等宽断点搜索方式分割微阵列基因属性值,获取有重大分类意义的基因,进而形成基于等宽分割基因属性的跳跃显露模式F_JEP。通过仿真实验,利用六个基因数据集检验了BRGA算法和F_JEP算法的分类预测性能,并将F_JEP算法与著名的三种基因微阵列分类算法NB、IB及C4.5在分类预测性能上进行比较,结果表明F_JEP算法在癌症基因微阵列分类性能方面明显优于NB、IB及C4.5算法,同时,BRGA算法和F_JEP算法与相关文献的癌症基因微阵列分类方法相比,在具有较高分类精确度和稳定性前提下大幅降低了计算复杂度及冗余,降低了运算开销。BRGA算法和F_JEP算法是高效、灵活且扩展性强的基因微阵列分类方法。由于实验条件和生物学发展的局限性,算法仍需进一步提高和完善,有待于在生物学和临床医学上得到应用。