论文部分内容阅读
在后基因组时代,生命科学研究的重点不再是对单个基因进行研究,而是在基因组结构和功能的层次来研究生物系统的运行机理。本文利用基因表达谱数据筛选出部分差异表达基因,以此构建基因互信息相关网络,并对正常组和疾病组的基因网络的结构差异进行了分析;利用互信息网络中基因的强度、介数和故障影响力等参数在正常组和疾病组中的差异,得到相应的候选疾病关键基因排序,通过社会选择模型的算法对排序进行了优化聚合,得到基因的最终聚合排序并由此选取疾病关键基因。具体研究内容如下:首先,从GEO数据库下载两组乳腺癌数据,一组为成对数据,一组为非成对数据。对两组数据进行必要的数据预处理后,利用SAM软件均筛选出约300个差异表达基因。根据这些差异表达基因的表达谱数据构建了正常组和癌症组的基因互信息相关网络。对互信息相关网络的平均度、平均核数等6个参数的分析发现,正常组和癌症组数据所导出的基因互信息相关网络的结构存在显著差异。特别的,非成对数据的差异较成对数据更显著。按照生物学中结构决定功能理论,结构的差异性正是功能差异性的直接原因。对非成对数据的基因互信息相关网络的节点(基因)强度、介数和故障影响力进行正常组与癌症组的比对,根据这3个参数在两个网络中的差异大小得到了相应的3个基因排序。利用社会选择理论中的Borda算法和Max-Diff算法进行了排序聚合,结果显示两个算法得到的最终排序几乎相同,均在最终排序的前15个基因中得到了8个疾病关键基因。这说明Borda算法和Max-Diff算法均适用于关键基因的选取。此外,对另一个序列聚合Footrule算法进行了小规模验证,结果发现,Footrule算法过于关注整体排序,而忽略了个别基因。因此,Footrule算法不适用于关键基因的选取。上述基因网络的结构分析及关键基因选取的研究,能帮助我们分析与基因相关的疾病(如癌症)的发病原因及致病基因,对疾病的诊断和治疗有着一定的参考价值。