论文部分内容阅读
核糖核酸(RNA)是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。RNA分为能编码蛋白质的编码RNA和不能编码蛋白质的非编码RNA。非编码RNA占人类基因组的98%,曾经被认为是“垃圾RNA”。随着研究的不断深入,人们发现非编码RNA的突变或者表达异常与许多疾病的发生密切相关。microRNAs(miRNAs)是平均长度约为22个核苷酸,具有调控功能的内源性非编码RNA,通过完全或者不完全碱基互补配对原则与特定靶基因的mRNA的3’端非翻译区或5’端结合,不仅能在转录后调控基因表达,也能在转录水平发挥抑制作用。miRNAs具有广泛的基因表达调控作用,参与细胞分化、增殖与凋亡,在心脑血管疾病、感染性疾病、恶性肿瘤等疾病中起到重要的作用。越来越多的证据表明一些miRNAs的表达谱在癌症组织与癌旁组织中呈现表达差异,各种肿瘤甚至癌症的不同阶段有各自特异性的miRNA表达谱。一些miRNAs可以成为癌症检测的标记物,或可能成为疾病治疗靶点,或成为疾病疗效预测指标。miRNAs与疾病的联系密切,识别miRNAs与疾病的关联,对于疾病早期检测、诊断、治疗、预后具有重要意义。本文从生物信息学的角度发掘miRNAs与疾病的关联,寻找与疾病最具关联潜力的miRNAs,希望能为生物实验提供最佳实验对象。本文主要工作如下:(1)首先研究了miRNAs的特点、功能、与之相关生物分子网络,接着研究了现有的与miRNAs相关的数据库资源,再研究了目前已有的疾病miRNAs预测方法,尤其是常用的基于相似性网络的疾病miRNAs识别方法,分析了这些方法的预测依据及优势与不足。(2)整合相似性网络的疾病miRNAs关联预测方法研究。目前已有的miRNAs与疾病关联预测方法存在一些不足,如预测准确性不高、需要负样本、留一交叉验证(LOOCV)的AUC值不高、验证时间长、不能预测孤立疾病(即没有miRNAs关联的疾病)等,为解决这些问题,通过整合miRNA相似性,疾病相似性和已知miRNA-疾病关联,本文提出了一种以相似性网络为基础的方法NSIM(network similarity integration method)预测miRNAs与疾病的关联。NSIM方法基于全局网络,合理简洁,不需要负样本,能够预测孤立疾病相关的miRNAs。(3)基于SimRank和密度聚类的疾病miRNAs关联推荐方法研究。本文提出了SRMDAP(SimRank and density-based clustering recommender model for miRNAdisease association prediction)方法,使用SimRank计算miRNA-mRNA间的网络拓扑相似度,以此构建miRNA相似性子网;并用疾病-基因网络间的网络拓扑相似度,构建疾病相似性子网。然后利用密度聚类推荐模型整合miRNA子网、疾病子网和实验验证的miRNA-疾病关联来预测miRNA与疾病的关联。SRMDAP中构建的miRNA相似性子网不依赖于已知miRNA-疾病关联信息,解决了预测结果过高估计的问题。SRMDAP还能预测孤立疾病相关的miRNAs以及孤立miRNA相关的疾病。(4)整合miRNA家族和簇信息的疾病miRNAs预测方法研究。在现有的很多miRNA-疾病关联预测方法中没有考虑miRNA的家族信息和簇信息。序列(特别是种子序列)高度同源的miRNAs被归为一个miRNA家族。同一个miRNA家族中的miRNAs并不一定位置相近。同一miRNA家族成员功能相近。miRNA簇是指在基因组上离得很近的miRNAs。miRNAs不是随机排列,通常是成簇的,而且簇生排列的基因常常协同表达。在miRNA-疾病预测算法中考虑miRNA家族信息和簇信息有助于提高预测的准确性。本文提出了FCMDAP(Using miRNA family and cluster information to improve predict accuracy of disease related miRNAs)方法,基于互信息,融合miRNA-mRNA相互作用数据和miRNA家族信息,计算miRNAs之间的相似性;融合疾病DAG语义和疾病-基因相互作用数据,计算疾病之间的相似性。然后,用推荐算法基于miRNA簇信息、已知miRNA相似性网络及已知miRNA-疾病关联计算miRNA空间预测得分,基于疾病相似性网络及已知miRNA-疾病关联计算疾病空间预测得分。最后,整合miRNA空间和疾病空间的预测得分预测潜在的miRNA-疾病关联。FCMDAP也能对孤立疾病相关的miRNA及孤立miRNA相关的疾病作出预测。