论文部分内容阅读
启动子是位于转录起始点附近的能促使基因发生转录的一段DNA序列,通常由核心启动子区域和调控区域组成。在RNA合成过程中,启动子可以和决定基因转录起始的蛋白质相互作用,进而控制基因表达时间和水平。启动子是转录起始点附近的基础调控区域,对其进行准确定位十分重要。启动子识别对于确定负责特定通路的转录单位、研究基因结构、分析基因调控机制以及注释基因信息具有重要意义。准确识别基因启动子的传统方法通常涉及复杂的生物学实验,要用此方法在全基因组范围定位所有启动子是一项极其耗时费力的工作。在过去几十年,启动子实验数据的积累以及测序技术的发展使启动子的计算预测成为可能。许多基于启动子序列相似性、保守性、信号基序、核苷酸组成等信息的计算识别模型相继被提出。但是,绝大多数方法的预测能力比较有限,分类精度仍有一定的提升空间。因此,本文尝试了一种新的样本描述方法,希望其能改善模型的预测能力。本文从多个数据库中搜索并下载了人类、果蝇、线虫、枯草杆菌和大肠杆菌的启动子和非启动子序列数据,构建了五个基准数据集。基于伪核苷酸方法和位置关联打分方法提取启动子序列的核苷酸组分信息、长程序列顺序信息和3-联体核苷酸的位置关联信息。为了剔除两类特征整合过程中产生的冗余或噪声信息,我们采用了最小冗余最大相关和增量特征选择方法对整合后的所有特征进行排序进而确定最优特征子集。然后,利用支持向量机算法搭建模型对五个物种的启动子和非启动子进行分类,并基于10-倍交叉验证评价五个预测模型的性能。人类、果蝇、线虫、枯草杆菌、大肠杆菌模型的准确率和ROC曲线下的面积分别为93.3%和0.974、93.9%和0.975、95.7%和0.981、95.2%和0.988、93.1%和0.976。与现有启动子预测算法比较的结果表明本文提出的模型优于其他模型。最后,为了方便大家使用此新的启动子识别方法,基于本文提出的分类模型,我们创建了一个在线预测工具(http://lin-group.cn/server/iPro-PseKNC)。