论文部分内容阅读
DNA元件百科全书(encyclopedia of dna elements,encode)的研究表明,人类基因组中存在大量的非编码RNA。非编码RNA在细胞的增殖、凋亡、生长和发育等生物学过程中发挥重要作用,对疾病的发生和发展产生重要影响。非编码RNA包含多种形式,其中,研究最为广泛的是microRNA(miRNA)和长非编码RNA(long non-coding RNA,lncRNA)。成熟的mi RNA是一类长度约为22nt单链非编码RNA,通过对靶基因mRNA的降解或者抑制,在转录后水平调控蛋白编码基因的表达。lncRNA是一类最近识别的长度超过200nt,不具有蛋白编码能力,通过多种转录调控机制,参与细胞增殖分化,免疫反应,表观遗传修饰等生物学过程的非编码RNA。非编码RNA在疾病中发挥的作用受到越来越多的重视,尽管目前有多个数据库收录了疾病相关的miRNA和lncRNA,但是相对于数量庞大的非编码RNA转录本,仍需要开发新的方法来识别疾病关联的非编码RNA。在本文工作中,我们开发了计算方法识别疾病相关的miRNA和lncRNA。对于疾病相关的miRNA预测,首先整合转录调控因子(TF)和miRNA的调控关系,构建TF和miRNA的转录调控网络。然后采用改进的广度优先算法(BFS),从转录调控网络中识别TF和miRNA的级联调控链。通过已知的调控元件(TF和miRNA)关联的疾病信息,得到疾病注释的级联调控链。结合设计的打分测度,获得高置信度的疾病调控链,进而识别出潜在的疾病相关miRNA。对于lncRNA,我们采用功能谱相似性的计算方法来预测疾病相关的lncRNA。首先,我们分别构建了lnc RNA功能谱和疾病功能谱,然后利用语义相似性打分测度,来计算lncRNA和疾病功能谱之间的相似性得分,利用这个得分用来排序和优选疾病关联lncRNA。经过方法评估和实例验证,两种方法都能够很好的预测出疾病相关的非编码RNA。本文的工作提供了预测疾病相关的非编码RNA的方法,预测出新的miRNA和lncRNA关联疾病,为揭示复杂疾病的致病机理提供帮助。