论文部分内容阅读
随着众多全基因组测序项目的有序开展和实施,对于基因组学的一系列相关研究逐渐由基因组测序向基因组合成方向发展。以DNA为基础的分子组装技术、基因组编辑技术、定向进化技术和DNA存储技术等前沿合成生物学技术的不断涌现,将极大地促进科研人员对于人工精确调控合成生物学产物的研究。基因表达的精确调控研究对合成生物学至关重要,但仍面临着基因表达调控机制的解析的关键问题,特别是调控相关元件的标记以及基因和功能对应关系等问题。因此,如何对各种各样的调控相关的元件进行识别,如何对未知功能的序列和位点进行功能探索和注释,是后基因组时代的研究重点和难点。随着高通量测序技术的发展,海量多样的组学数据不断产生,这些数据是挖掘生物系统的规律和探究生命奥秘的本质所需的丰富信息载体,但其潜力的挖掘需要借助更高层次的分析手段。机器学习是一种数据分析技术的集合,是智能计算的研究基础,其利用数据表征信息学习并构建预测模型,并已成为现代生物生命科学研究中不可或缺的重要支撑手段。借助大型数据集学习所得的模型,机器学习可以对可能的结果做出预测,从而实现对不断增长的复杂性数据的高层次分析。因此,本文从微观层面上进行了基因表达调控相关功能元件及修饰位点的机器学习预测研究,同时又从系统层面进行了基因调控网络的重构算法研究。本文的具体研究内容主要包括:(1)基于多元特征的非编码DNA序列的识别研究。非编码DNA(Non-coding DNA,nc DNA)序列是生物基因组的重要组成部分。本文提出了能准确且自动化的识别非编码DNA序列的计算模型。该方法针对酿酒酵母(Saccharomyces cerevisiae,S.cerevisiae)nc DNA的基准数据集,从单核苷酸、二聚体、三聚体、四聚体、五聚体和六聚体中选择最优特征提取策略,构建了一个基于支持向量机的nc DNA序列预测器Sc-nc DNAPred。该方法不仅可以避免昂贵的开销,同时其检测非编码DNA序列的精度也高达0.98。(2)基于位置特异性差异的σ70启动子识别研究。在原核生物中,启动子调节大部分基因的转录,启动子识别是基因结构识别的重要组成部分。本文结合单链特征的三核苷酸位置特异性倾向(position-specific trinucleotide propensity based on a single-stranded characteristic,PSTNPSS)和三核苷酸电子-离子相互作用赝势(electron-ion interaction potential values for trinucleotides,Pse EIIP),开发了用于预测原核生物启动子的识别方法70Pro Pred。该方法在准确性和稳定性方面均显著优于现有的原核生物σ70启动子预测方法,同时其也可以推广应用于其他类型的启动子的预测。(3)基于位置特异性差异的DNA胞嘧啶甲基化位点识别研究。N4-甲基胞嘧啶(N4-methylcytosine,4m C)在DNA复制和基因表达中发挥着关键作用,对4m C位点的精确识别是研究其功能和作用机制的基础。本文开发了一种新的工具4m CPred,该工具可以预测秀丽隐杆线虫(Caenorhabditis elegans,C.elegans)、黑腹果蝇(Drosophila melanogaster,D.melanogaster)、拟南芥(Arabidopsis thaliana,A.thaliana)、大肠杆菌(Escherichia coli,E.coli)、Geoalkalibacter subterraneus(G.subterraneus)和Geobacter pickeringii(G.pickeringii)6个物种的4m C位点。独立测试和物种交叉验证的结果表明,4m CPred可以有效预测4m C位点。另外,本文还详细分析了不同特征对于预测结果的重要性。(4)基于多源表达数据的基因调控网络重构算法研究。细胞的生长和分化、疾病的发生和发展都受基因调控网络(Gene Regulatory Networks,GRNs)的控制。在诸多针对GRN的研究中,如何利用基因表达数据来确定基因与基因之间的关系尤为重要。本文提出了一种多源多模型融合方法MMFGRN,用于重构GRN并发现基因之间的潜在调控关系。大量的实验结果表明MMFGRN对不同规模的网络都具有良好的鲁棒性。同时,本文设计的整合策略(包括联合模型构建和加权融合方法),也为无先验知识的情况下重建生物网络模型提供了一种新的思路。