论文部分内容阅读
随着DNA测序技术的迅速发展,研究人员可以获取各种组织样本中的海量基因表达数据,这为从分子水平研究肿瘤发病机制提供了技术支持。医疗数据挖掘作为数据挖掘技术的主要研究方向之一,同时也是生物信息学的研究热点,基于基因表达数据的挖掘技术对发现致病基因、预测蛋白质功能以及疾病诊断与治疗等意义重大。由于基因固有的特点和DNA测序技术的局限性,所获取的数据往往表现出高维、小样本和高噪声等特点,因此传统的统计方法和模式识别方法难以直接应用于基因表达数据挖掘任务中。本文针对基因表达数据的特点,以特征基因的选择方法为主要研究方向,开展了以下几个方面的工作:(1)为了解决蚁群优化算法在搜索过程中收敛速度慢,易于陷入局部最优的问题,分别提出了改进的信息素更新策略和状态转移规则。在信息素更新策略中加入正反馈系数和蒸发因子,若蚂蚁在若干代内所得到的特征子集质量没有提高,则信息素蒸发因子将被自适应调节,从而加速信息素的蒸发;另一方面,信息素的蒸发反馈系数也自适应调整,减少蚁群的正反馈效应,从而提高蚁群算法的全局搜索能力。将随机策略和贪心策略相结合作为蚂蚁的状态转移规则,提高了蚁群的搜索性能,避免陷入局部最优的情况。(2)对不同算法在数据挖掘中的结合,提升分类算法的准确度进行研究,提出了一种基于随机森林与蚁群算法的特征选择方法,用于在较高维度的数据集中选取分辨能力强的特征子集。算法通过代价较小的特征评估方式计算启发式信息,采用自适应的信息素更新策略加速候选特征子集的搜索,并使用前向顺序选择策略从候选子集中构造出全局最优。实验结果表明,所提出的算法可以有效剔除冗余和无关特征,提升分类器的效率。(3)针对基因表达数据中存在大量无关基因,冗余基因和噪声基因的问题,提出了一种结合过滤式方法和蚁群算法的特征选择方法。算法首先通过ReliefF算法过滤掉含有较少分类信息的基因,然后把候选基因子集输入蚁群算法,在迭代改进的过程中选择最优基因子集。在肿瘤基因表达数据上的分类预测实验表明,本文提出的算法可以在基因较少的情况下得到较好的分类效果。