论文部分内容阅读
随着生物信息学和计算机技术的发展,人类基因组草图的公布标志着生命科学的研究已进入后基因组时代,科学家们把研究的焦点转向了功能基因组学,即对基因及其表达产物的功能进行研究。生物体系具有模块性,生物体系的整体功能特性通过分立模块的功能特性共同体现。建立起具有模块性的生物网络能够更全面地表达生物体系的功能特性。识别生物体系的功能模块成为后基因组时代对生物学家的又一大挑战。基因芯片技术具有平行性和高通量的特点,已成为大规模提取和探索生物分子信息的强有力手段。如何从基因芯片数据中识别功能模块,并从功能模块的角度构建子网络,进而构建由子网络构成的基因网络,更全面地表达生物体系的结构和功能,成为生物学家们研究的热点,同时也是研究的难点。本文将随机矩阵理论(RMT)与层次聚类方法相结合分析基因芯片表达数据的模块性,针对不同的基因组构建相应的功能模块,主要包括以下几个方面的内容:1.将RMT与层次聚类方法相结合研究酿酒酵母基因网络的模块性,应用K最近邻(KNN)方法处理基因表达数据中的缺失数据,使用均方根误差(NRMSE)方法来确定最近邻间隔分布(NNSDs)的转变阈值。研究表明,基于RMT的层次聚类方法识别基因网络的功能模块具有普适性,能有效地将酿酒酵母基因网络中本质的、非随机的属性同随机噪声分离,客观地确定阈值、识别出网络的功能模块。确定NNSDs的转变阈值qc=0.74;使用层次聚类方法对特征表达的基因进行聚类分析,发现CLN2、CLB2等功能模块对细胞周期调控起关键作用,依据已知基因的功能准确地预测未知基因YLR190W,YCR016W等的功能,补充了未知基因的功能注释。2.应用RMT与层次聚类相结合的方法研究弥散性大B细胞淋巴瘤(DLBCL)基因网络的模块性,应用局域最小二乘(LLS)方法处理基因表达数据中的缺失数据,使用NRMSE比值的方法来确定NNSDs的转变阈值。我们发现,基于RMT的层次聚类方法能够有效地去除DLBCL基因网络中的随机噪声,得到过渡区间为[0.71,0.84]。在转变点qc=0.71处,通过基因表达谱分析DLBCL的分子异质性,并将DLBCL分为两个亚型:GCB和ABC亚型。在转变完成点qm=0.84处,识别出DLBCL基因网络的功能模块。通过对比Lymph node团簇和MHC团簇的拓扑结构和分枝树的差别,发现基于RMT的层次聚类方法不仅能够根据基因之间的强关联相互作用体现基因网络的模块性和模块的分立性,还能够根据不同模块之间的弱关联相互作用体现基因网络的等级性。3.应用复杂网络理论研究DLBCL基因网络的拓扑结构特性。以4026阶的邻接矩阵为模型,由去除噪声后的2383个特征表达基因构建DLBCL基因网络,使用复杂网络理论方法分析DLBCL基因网络的拓扑结构特性。研究表明,DLBCL基因网络不仅具有小世界性和无标度性,还具有等级模块性,DLBCL基因网络是一个等级网络。