论文部分内容阅读
基因选择性表达是细胞适应环境变化的重要手段。揭示基因选择性表达所依赖的调控信息及其相互作用的分子机制,一直是生命科学研究领域的热点。近年来,各种高通量实验技术的出现为研究基因调控网络提供了大量数据。目前,在基于单一数据源重构调控网络方面,人们提出了各种网络模型以及计算方法。虽然这些方法各有优点,但是它们在揭示基因调控关系上都具有不完整性、不确定性和一定的互补性。整合多种实验数据正在成为发展基因调控网络重构技术的必然趋势。
本文对当前广泛采用的综合多元数据的预测算法GRAM和MA-Networker进行了分析评估,指出了阈值选取过于严格及其对预测结果可能产生的不利影响。在此基础上,本文提出了优化整合多种生物学数据预测基因转录调控关系的新算法,并应用在实际ChIP-chip数据和转录因子敲除表达谱数据上,取得了比较理想的预测效果。该算法首次采用超几何分布假设的统计检验方法优化阈值的选取,对两种数据的百余个调控因子进行优化阈值的计算设定,并依据“非随机相关性”推断转录调控关系。本文对预测结果进行了与大规模数据库和高质量ChIP-chip数据比较,GO功能类分析以及文献查找相关证据等大量验证。结果显示,该算法可以在保证预测精度的同时,大幅提高预测的覆盖率,其大部分预测结果都已找到相应的实验或计算证据。本算法不仅在预测转录调控靶基因方面具有显著效果,而且已拓展到对转录因子间协同调控进行有效预测。在今后的研究中,该算法还可以进一步用于其它多元高通量数据的整合以及基因调控网络的预测。