论文部分内容阅读
随着DNA微阵列(DNA microarray)技术的高速发展,研究人员可在一次实验中同时测定成千上万个基因的表达数据,这些数据对了解疾病在基因级别的发病机理、疾病的诊断、基因级别的药物研制以及基因治疗都有着很高的应用价值,而且在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的应用。然而,在这成千上万的基因表达数据中,只有少量可以研究的样本,造成了严重的维数灾难现象,从而导致分类性能的严重下降,而且在这大量的基因表达数据中,有大量冗余的与癌症分类诊断无关的噪声基因,这就造成了对疾病分类的不准确性,并且数量如此庞大的基因还大量的耗费了医学诊断的费用。因此选择出对疾病有鉴别意义的特征基因或与疾病相关基因至关重要。特征基因选择问题是利用生物信息学技术处理基因表达数据急待解决的关键问题,也是机器学习中研究领域中的一个挑战性课题。针对基因表达数据“高维样本少”的特点,本论文提出了基于优化算法与支持向量机的基因选择算法,本论文的主要贡献有三个方面:(1)提出了基于遗传算法与支持向量机的基因选择算法,算法在全局的基因集合上寻找优秀基因子集,避免一些相关性强的基因被选择而影响对疾病样本的分类效果。(2)提出了基于粒子群算法的基因选择与支持向量机优化的算法,算法在寻找最优基因子集的同时,对支持向量机核函数的参数进行了优化选择,保证了被选择的基因子集是较适合优化后的支持向量机。(3)提出了基于混合粒子群算法与遗传算法的基因选择算法,算法在二进制粒子群算法的基础上引入遗传算子(选择,交叉,变异)来寻找更优的基因子集,一定程度上解决了粒子群算法在寻找优秀基因子集时容易陷入局部最优的情况。通过在公开的基因表达数据集上的实验仿真表明,提出的算法不仅能够选择出数目较少的关键诊断基因,而且被选择的基因具有良好的分类推广能力。