论文部分内容阅读
探寻基因表达调控的规律是后基因组时代生物信息学的核心问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式。基因组中具有调控功能的DNA序列片段可称为转录调控元件。对转录调控元件进行识别与注释,无疑将是研究转录调控规律进而构建表达调控网络的关键步骤。随着生物研究的深入和计算机技术的发展,计算识别的方法已逐渐成为传统实验注释方法的有力辅助工具。然而,现有的转录调控元件识别方法多数只考虑序列的一维组成等有限特征,忽略了许多其他重要信息,致使识别的特异性普遍偏低,假阳性结果过多。在这一背景下,本文以转录调控元件的特征分析和计算识别为主题,提出了由特征选取、特征计算和整合识别三个主要步骤组成的多类特征信息融合识别框架,并基于此框架实现了启动子、内源性终止子和转录因子结合位点三种常见转录调控元件及其相关调控信号的识别算法,主要工作和创新之处包括:(1)启动子的特征分析与识别算法研究。启动子是负责调控转录起始过程的序列元件,本文在深入分析原核和真核启动子多类特征的基础上,提出了一种基于特征筛选与组合的启动子序列判别分析算法。该算法首先在启动子的序列组成、空间构象和能量分布等特征中广泛选取备选特征,为每个备选特征建立适当的描述模型,通过模型计算对其判别力进行评价;然后采用逐步筛选算法从备选特征中遴选出总体判别力最显著的特征组合作为特征集,依照特征集将启动子序列片段表示为组合特征向量的形式;再利用二次判别分析方法实现分类与识别。为了使描述更加准确,还在原核启动子局部信号特征的分析中引入了复合模体的概念,设计了用于搜索和计算二元复合模体的迭代搜索算法OCMISA。在计算真核启动子中位置不定的保守模体时,同样使用了类似的迭代搜索算法。利用此算法,本文在实际数据集上对原核的大肠杆菌σ70启动子和枯草杆菌σA启动子,真核的人类pol II启动子进行了分类识别,获得了明显优于其他几种常用识别方法的性能评价。(2)转录起始位点的定位算法研究。转录起始位点是与启动子有密切关联的调控信号。本文以前面提出的基于特征筛选与组合的启动子识别算法为基础,将其扩展为转录起始位点定位算法。该算法首先根据转录起始位点可能出现位置的先验信息合理确定搜索范围。由于原核转录起始位点的搜索范围较小,故直接将固定的启动子区域改为滑动窗口进行扫描,根据每个位置上的似然得分来确定预测位置。为提高信噪比,特别设计了基于共振原理的窗口交迭组分特征变量和用于最终定位的阈值定位算法,并引入转录起始位点和翻译起始位点间的距离分布信息作为对似然得分的修正。对于真核转录起始位点,由于搜索范围过大导致滑动窗口方法失效,则需根据已知转录起始位点的组成信息来确定备选位点集,仅对定位范围内的备选位点进行计算,利用启动子识别的方法即可实现分类定位。在实际数据集上对定位算法进行测试,其结果与几种常用方法相比,无论是对原核还是真核转录起始位点,特异性都有了较大幅度的提高。(3)内源性终止子的特征分析与识别算法研究。内源性终止子是凭借自身的序列信号即可实现转录终止功能的调控元件。本文在对大肠杆菌和枯草杆菌内源性终止子已有特征进行深入分析和合理综合的基础上,引入序列弯曲度特征,为内源性终止子构建了一个包含序列组成、局部构象和能量分布信息的更为全面的特征集,并在此特征集上分别利用二次判别分析和支持向量机方法实现了内源性终止子的识别算法。在大肠杆菌全基因组限定范围内的搜索预测中,基于新特征集的算法与其他几种典型方法相比,其识别结果的特异性有了明显提高。(4)转录因子结合位点的特征分析与识别算法研究。转录因子结合位点是转录因子与基因组序列结合的靶位点,是最基本的一类调控元件。本文在分析已有方法的基础上,提出了一种融合保守模体和序列局部构象信息的转录因子结合位点搜索识别算法,采用极大相关得分矩阵作为保守模体的描述和计算模型,同时根据二苷参数模型计算序列的局部构象参数,然后利用二次判别分析整合两类信息,最终通过滑动窗口进行识别。作为对常用位置特异得分矩阵模型的扩展,极大相关得分矩阵的核心思想是根据模体位置间的相关性对全部位置进行重新排列,使得新顺序下所有相邻位置间的相关性总和达到最大。位置重排可以将远程相关尽量转化为近邻相关,从而在较低的模型复杂度下即可实现对模体位置间相关性的更加全面地描述。而局部构象参数则作为外源特征被引入,它们是对序列组成信息的有力补充。基于大肠杆菌CRP、Fis和人类HNF4α结合位点数据的测试结果验证了此识别算法的有效性。与其他常用方法相比,识别结果的特异性有了较大的改善。