论文部分内容阅读
有关非编码RNA的研究是功能基因组时代研究的重要前沿问题之一。本论文运用生物信息学方法,围绕着非编码RNA的计算识别与特征分析展开研究,主要包括三个方面的内容:针对microRNA(miRNA)的计算识别方法,非编码RNA的计算识别方法,以及RNA二级结构的相似性搜索。
1)miRNA是一类能够调控基因表达的非编码RNA。miRNA前体可以形成特殊的茎-环结构。然而,基因组中存在大量的与miRNA前体具有相似结构的序列片断(本文称为虚假-miRNA前体)。区分真实的和虚假的miRNA前体,不仅对理解miRNA的本质十分重要而且可以帮助开发识别miRNA的预测方法。本文提出了一种基于茎-环结构的局部结构序列特征,用于描述miRNA前体。利用这个特征,分析了miRNA前体和虚假-miRNA前体之间的差异。进而,将模式识别中的技术——支持向量机(SVM)用于两类数据的分类,取得了很好的效果。此外,还分析了不同物种的miRNA前体在局部结构-序列特征下的保守性,并提出了不依赖于比较基因组学方法的miRNA识别策略。
2)非编码RNA基因直接产生功能性的RNA分子而不是翻译成蛋白质,它们参与许多重要的细胞调控过程。非编码RNA基因不具有类似于编码蛋白质基因的开放阅读框和密码子偏好等明显的公共特征,因此计算识别非编码RNA是一项非常困难而重要的任务。本文提出了基于整合的特征识别非编码RNA的策略。应用这个策略,在人类基因组中,利用基因间区的低表达的EST数据,结合EST聚类、比较基因组学、转录信号分析等方法,预测了高可靠的非编码RNA基因,并对部分结果进行了实验验证和分析。
3)许多非编码RNA具有进化上保守的二级结构而不是进化上保守的一级序列。已经报道的结构比对方法在双序列、多序列中寻找保守的二级结构。一个开放问题是:给定一个已知结构的RNA序列,在大的数据库中搜索与该序列具有相似结构的序列。针对这个问题,本文开发了算法RScan。与原有方法相比,RScan可以在单机条件下快速的执行,并且保持了较高的准确度。最重要的是,RScan可以真正的应用于现实的使用,完成大数据库的搜索。