miRNA靶基因预测及其功能识别算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:linjiachou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
microRNA(miRNA)是长度约为19-22nt(核苷酸)的单链RNA分子,参与大量的细胞进程,包括细胞增殖、新陈代谢和细胞凋亡等,且与疾病的发生、发展密切相关。计算方法在miRNA结构预测和功能识别的研究中起到了重要的作用,推动了相关研究的快速发展。本文依据miRNA的生物特性,对miRNA靶基因预测,miRNA调控模块识别,miRNA与疾病关联和疾病标志物mi RNA的识别等计算问题进行了深入研究,取得了一些创新性成果。主要内容包括以下四个方面:(1)提出基于卷积神经网络的miRNA靶基因预测方法miRNA通过调控基因的表达来影响蛋白质的合成,进而影响疾病的发生、发展。因此,研究miRNA-疾病关联的前提,是掌握miRNA的靶基因。本文依据已知的miRNA靶向规律,提出了基于卷积神经网络的miRNA靶基因预测方法miRTDL。在特征选择方面,从miRNA二级结构的角度出发,深入分析了miRNA与靶基因二聚体的序列互补匹配特点、可接近性特点和保守性特点,选取20个具有代表性的靶向特征。在数据集构建方面,依据miRNA靶向规律,采用约束松弛方法,构建了数量均衡的正、反例数据集,消除了训练数据类别不均衡对机器学习模型预测结果的影响。在机器学习模型选择上,由于尚不了解miRNA的确切靶向机制,而卷积神经网络模型具有不完全依赖输入特征,可以自行从输入数据中提取特征的特点,因此选用卷积神经网络模型预测miRNA的靶基因,避免了浅层学习方法对专家领域知识的依赖,提高了预测准确率。将mi RTDL模型应用到1606对人类miRNA-基因上,取得了较高的预测准确率。考察了特征选择、均衡数据集构建和预测模型选择三个步骤对最终结果的贡献。将mi RTDL与以往靶基因预测方法进行比较,miRTDL取得了最高的敏感性和特异性。基于预测结果,分析了miRNA各种靶向特征的重要性和唯一性,揭示了互补匹配特征的重要性大于保守性特征的重要性,保守性特征的重要性大于可接近性特征的重要性的靶向机制,为靶基因的生物实验验证提供指导。(2)提出基于主题模型的miRNA调控模块识别方法通过识别mi RNA调控模块,可以掌握miRNA-miRNA协同调控关系和miRNA-基因靶向关系,有助于深入理解miRNA在后转录阶段的调控模式,以及miRNA参与调控疾病的复杂机制。本文针对miRNA调控功能的时空特异性,提出了基于主题模型的miRNA调控模块识别方法CCRM。该方法综合考察miRNA表达谱数据和基因表达谱数据,在不同的组织和时刻下,mi RNA与不同的miRNA协同表达、靶向不同的基因,发挥各异的调控功能。依据表达相似的miRNA具有相似的生物功能这一生物前提,识别了相应的miRNA调控模块。根据调控模块中已知功能的miRNA,推测其它miRNA的功能,并推断调控模块中miRNA-基因的靶向关系。由于miRNA功能的多样性和广泛性,使得调控模块间通过重复出现的miRNA和基因建立了关联,利用对数正态分布描述了调控模块间的关联,进而构建miRNA-基因调控网络,揭示miRNA功能在整个生命过程中的动态演化特性。进行了11组实验,验证了调控模块中miRNA-miRNA协同关系、mi RNA-基因靶向关系,分析了调控模块间关联的稳定性,证明了CCRM算法的可靠性。(3)提出基于隐条件随机场的miRNA-疾病关联预测方法miRNA的功能异常是导致疾病产生的重要原因,研究mi RNA-疾病的关联能够为临床提供诊断依据和治疗方向。本文利用隐条件随机场模型HCRF预测与疾病关联的miRNA。在训练样本选择方面,由于以往基于网络节点相似度计算的预测方法可使用的生物数据量小,少量的数据难以训练出可靠的分类模型。另外,基于网络节点相似度计算的预测方法建立在miRNA静态调控网络的基础上,忽略了miRNA功能的时序特异性。针对以上两点,本节选取了大量可用的、且能体现miRNA功能动态性的miRNA表达谱数据。在数据集构建方面,利用网络节点相似度计算的预测方法,分别识别miRNA-疾病直接关联,以及miRNA-基因-疾病间接关联。利用决策融合思想,为表达谱中的miRNA分配可靠的类别标签。在机器学习模型选择方面,采用加入隐变量的条件随机场模型HCRF,识别miRNA表达值序列中具有生物意义的子序列。将HCRF模型与以往预测方法进行比较,利用ROC曲线描述实验结果,HCRF模型的AUC值高于其它三种方法的AUC值。将HCRF模型与HMM、CRF模型进行比较,HCRF模型的分类结果明显优于另外两种方法。最后,验证了决策融合方法对最终的预测结果起到的重要作用。本节提出的方法为后续生物实验提供可靠的与疾病关联的miRNA候选,揭示了miRNA表达谱数据在miRNA-疾病关联预测领域上的广泛应用前景。(4)提出基于局部线性嵌入和聚类的疾病标志物miRNA识别方法疾病标志物miRNA在疾病的早期诊断中发挥着重要的作用,然而在疾病标志物miRNA的挖掘领域,基于计算方法识别标志物miRNA的研究还很少。本文利用局部线性嵌入降维方法和基于密度的聚类方法,识别疾病标志物miRNA。首先,深入分析了miRNA表达谱数据的生物特点,针对miRNA表达的时空特异性,依次选取部分生物样本进行降维,采用的局部线性嵌入方法,能够保留miRNA在空间中的拓扑结构信息。其次,依据miRNA在不同样本下的差异表达,以及共表达的miRNA在空间中成簇排列的生物规律,采用基于密度的聚类思想,对降维后的表达谱数据进行聚类。最后,依据miRNA在不同子空间聚类中出现的频率,预测相应的疾病标志物miRNA,并分析了标志物在各种疾病中差异表达的特点。同时,依据疾病发展的普遍规律,预测了多种疾病的共同标志物。最后,通过与已发表文献和数据库进行比对,验证识别的标志物miRNA的可靠性。基于机器学习的预测方法,为疾病标志物miRNA的识别提供了新的手段。
其他文献
2020年6月23日,中国家用电器研究发布了《2020年新风空调行业发展白皮书》(以下简称《白皮书》)。《电器》记者注意到,《白皮书》从消费者角度梳理了用户痛点,明确了用户对新
近年来,随着经济的不断发展及科技文化的日新月异,以至于当今计算机课程的教学模式也在相应地变化发展着,就目前而言,对于计算机这门与当今科技最为贴近的课程的教育教学模式
莱芜市莱城区先后引进了圣玫瑰、黑宝石、秋红、早美丽等优良李新品种,由于栽培管理技术不当,部分5年生树旺而不结果.为此,我们先后在莱城区程家庄村和东见马村对幼旺树进行
2021年4月18~20日,由中国家用电器协会主办的工信部领军人才家电行业七期班第二次课程在安徽合肥举办。此次课程聚焦企业运营管理,以TechMark教学加实战模拟的方式,引导学员
目的口服美林与消炎痛对早产儿动脉导管未闭(PDA)的疗效和副作用进行对比分析,以便寻找更好的治疗方法.方法将35例早产儿PDA患儿随机分为2组:A组17例给予口服美林治疗,B组18
重组工程是一种高效的适用于体内遗传工程的方法,能适用于大肠杆菌染色体和游离型复制子,可以在任何位点实现DNA分子的重组修饰而无需受到限制性内切酶位点的制约,通过重组工
2020年3月31日,索尼(中国)有限公司举行了一场以“智享‘芯’视界”为主题的在线发布会。会上,索尼2020年电视机全矩阵新品亮相,这也是索尼电视机新品再次于中国率先上市。20
2020年的智能坐便器行业,让人看不懂。疫情影响下,"健康"成为全民关注的焦点。但就在不少行业和企业想方设法"蹭"健康热度的时候,本身就是健康家电的智能坐便器却仿佛披上了"