论文部分内容阅读
基因表达数据分析是当前国际生物信息科学研究的热点。针对基因表达数据的海量性和已知功能基因少量性的特点,采用不需要先验知识的聚类方法,能够直接将具有相似表达水平的基因聚在一起,是分析基因功能的有效途径。
本文根据四川省医学科学院动物研究所提供的大鼠抑郁症基因芯片生物实验数据的特性对其进行数据挖掘分析,主要内容包括:
第一,根据芯片上看家基因的表达值对其它表达值进行标准化,使来自不同批次实验的同一基因的表达数据在量纲上达成统一;根据基因表达数据的生物意义对其进行降维,不仅减少了数据量,而且保持了数据集的完整性。
第二,把大鼠同一基因在其不同病理状态下表达值的比值作为数据挖掘的输入数据,可快速找出变化相似的基因,使挖掘结果能更好反映基因的生物学意义。
第三,采用改进的FCM算法和xie—Beni指数相结合的方法作为基因表达数据的挖掘算法,不仅对基因样本类属的不确定性进行了描述,而且避免了无根据确定聚类数的盲目性。
第四,针对基因表达数据分析和模糊聚类的特点对挖掘结果进行可视化描述,使复杂结果简单化。
经过测试,上述研究达到了从数据中提取具有生物学意义的抑郁症相关基因分类结果和测试新药疗效的目的。