论文部分内容阅读
基因芯片技术的广泛应用产生了海量的基因表达数据。如何分析和处理这些基因表达数据,从中获取有用的生物学或医学信息,已经成为后基因组时代的重要课题。聚类分析能将功能相似的基因按表达谱的相似程度归为相同基因表达类别,对基因功能、基因调控等进行综合研究,是基因表达数据分析中主要技术之一。本文系统叙述了基因表达数据的聚类算法,重点研究了模糊C-均值聚类算法(Fuzzy C-means, FCM)和遗传算法(Genetic algorithm, GA)。针对FCM算法对初始值敏感和易陷入局部最优解等问题,改进了遗传算法,并将改进的遗传算法和模糊C-均值算法有机结合,提出IGA-FCM算法,并进行matlab仿真。通过Wine数据集、IRIS数据集、Image Segmentation数据集验证IGA-FCM对初值的敏感度、全局搜索能力和收敛速度以及聚类精度。结论说明IGA-FCM相对于传统的FCM算法降低了初值敏感度,提高了全局搜索能力和收敛速度,并保持了传统FCM算法的精度。在对基因数据进行聚类分析前,又对Yeast Cell Cycle数据集进行小波去噪处理,并将IGA-FCM算法模型应用于Yeast基因数据集。聚类结果表明小波去噪提高了聚类精度和IGA-FCM算法的实用性。