论文部分内容阅读
microRNA(miRNA)是长度约为19-22nt(核苷酸)的单链RNA分子,参与大量的细胞进程,包括细胞增殖、新陈代谢和细胞凋亡等,且与疾病的发生、发展密切相关。计算方法在miRNA结构预测和功能识别的研究中起到了重要的作用,推动了相关研究的快速发展。本文依据miRNA的生物特性,对miRNA靶基因预测,miRNA调控模块识别,miRNA与疾病关联和疾病标志物mi RNA的识别等计算问题进行了深入研究,取得了一些创新性成果。主要内容包括以下四个方面:(1)提出基于卷积神经网络的miRNA靶基因预测方法miRNA通过调控基因的表达来影响蛋白质的合成,进而影响疾病的发生、发展。因此,研究miRNA-疾病关联的前提,是掌握miRNA的靶基因。本文依据已知的miRNA靶向规律,提出了基于卷积神经网络的miRNA靶基因预测方法miRTDL。在特征选择方面,从miRNA二级结构的角度出发,深入分析了miRNA与靶基因二聚体的序列互补匹配特点、可接近性特点和保守性特点,选取20个具有代表性的靶向特征。在数据集构建方面,依据miRNA靶向规律,采用约束松弛方法,构建了数量均衡的正、反例数据集,消除了训练数据类别不均衡对机器学习模型预测结果的影响。在机器学习模型选择上,由于尚不了解miRNA的确切靶向机制,而卷积神经网络模型具有不完全依赖输入特征,可以自行从输入数据中提取特征的特点,因此选用卷积神经网络模型预测miRNA的靶基因,避免了浅层学习方法对专家领域知识的依赖,提高了预测准确率。将mi RTDL模型应用到1606对人类miRNA-基因上,取得了较高的预测准确率。考察了特征选择、均衡数据集构建和预测模型选择三个步骤对最终结果的贡献。将mi RTDL与以往靶基因预测方法进行比较,miRTDL取得了最高的敏感性和特异性。基于预测结果,分析了miRNA各种靶向特征的重要性和唯一性,揭示了互补匹配特征的重要性大于保守性特征的重要性,保守性特征的重要性大于可接近性特征的重要性的靶向机制,为靶基因的生物实验验证提供指导。(2)提出基于主题模型的miRNA调控模块识别方法通过识别mi RNA调控模块,可以掌握miRNA-miRNA协同调控关系和miRNA-基因靶向关系,有助于深入理解miRNA在后转录阶段的调控模式,以及miRNA参与调控疾病的复杂机制。本文针对miRNA调控功能的时空特异性,提出了基于主题模型的miRNA调控模块识别方法CCRM。该方法综合考察miRNA表达谱数据和基因表达谱数据,在不同的组织和时刻下,mi RNA与不同的miRNA协同表达、靶向不同的基因,发挥各异的调控功能。依据表达相似的miRNA具有相似的生物功能这一生物前提,识别了相应的miRNA调控模块。根据调控模块中已知功能的miRNA,推测其它miRNA的功能,并推断调控模块中miRNA-基因的靶向关系。由于miRNA功能的多样性和广泛性,使得调控模块间通过重复出现的miRNA和基因建立了关联,利用对数正态分布描述了调控模块间的关联,进而构建miRNA-基因调控网络,揭示miRNA功能在整个生命过程中的动态演化特性。进行了11组实验,验证了调控模块中miRNA-miRNA协同关系、mi RNA-基因靶向关系,分析了调控模块间关联的稳定性,证明了CCRM算法的可靠性。(3)提出基于隐条件随机场的miRNA-疾病关联预测方法miRNA的功能异常是导致疾病产生的重要原因,研究mi RNA-疾病的关联能够为临床提供诊断依据和治疗方向。本文利用隐条件随机场模型HCRF预测与疾病关联的miRNA。在训练样本选择方面,由于以往基于网络节点相似度计算的预测方法可使用的生物数据量小,少量的数据难以训练出可靠的分类模型。另外,基于网络节点相似度计算的预测方法建立在miRNA静态调控网络的基础上,忽略了miRNA功能的时序特异性。针对以上两点,本节选取了大量可用的、且能体现miRNA功能动态性的miRNA表达谱数据。在数据集构建方面,利用网络节点相似度计算的预测方法,分别识别miRNA-疾病直接关联,以及miRNA-基因-疾病间接关联。利用决策融合思想,为表达谱中的miRNA分配可靠的类别标签。在机器学习模型选择方面,采用加入隐变量的条件随机场模型HCRF,识别miRNA表达值序列中具有生物意义的子序列。将HCRF模型与以往预测方法进行比较,利用ROC曲线描述实验结果,HCRF模型的AUC值高于其它三种方法的AUC值。将HCRF模型与HMM、CRF模型进行比较,HCRF模型的分类结果明显优于另外两种方法。最后,验证了决策融合方法对最终的预测结果起到的重要作用。本节提出的方法为后续生物实验提供可靠的与疾病关联的miRNA候选,揭示了miRNA表达谱数据在miRNA-疾病关联预测领域上的广泛应用前景。(4)提出基于局部线性嵌入和聚类的疾病标志物miRNA识别方法疾病标志物miRNA在疾病的早期诊断中发挥着重要的作用,然而在疾病标志物miRNA的挖掘领域,基于计算方法识别标志物miRNA的研究还很少。本文利用局部线性嵌入降维方法和基于密度的聚类方法,识别疾病标志物miRNA。首先,深入分析了miRNA表达谱数据的生物特点,针对miRNA表达的时空特异性,依次选取部分生物样本进行降维,采用的局部线性嵌入方法,能够保留miRNA在空间中的拓扑结构信息。其次,依据miRNA在不同样本下的差异表达,以及共表达的miRNA在空间中成簇排列的生物规律,采用基于密度的聚类思想,对降维后的表达谱数据进行聚类。最后,依据miRNA在不同子空间聚类中出现的频率,预测相应的疾病标志物miRNA,并分析了标志物在各种疾病中差异表达的特点。同时,依据疾病发展的普遍规律,预测了多种疾病的共同标志物。最后,通过与已发表文献和数据库进行比对,验证识别的标志物miRNA的可靠性。基于机器学习的预测方法,为疾病标志物miRNA的识别提供了新的手段。