论文部分内容阅读
非编码RNA是不能翻译为蛋白质的RNA,其中微小RNA、长非编码RNA和环状RNA为三大类功能多元化的“现代”非编码RNA,它们作为重要调控因子参与了细胞的多种生命活动,并与人类诸多疾病尤其是肿瘤的产生和发展紧密相关。鉴于非编码RNA对机体的重要调控作用,近年来,从非编码RNA层面,理解疾病发生机制和挖掘肿瘤标志物已经成为疾病研究的重点。采用生物实验技术识别非编码RNA与疾病的关联关系,存在周期长、成本高、且不适合大规模关联识别的问题。为推进生物实验关于疾病与非编码RNA研究的进程,目前已提出较多计算方法来识别特定类别非编码RNA与疾病的关联关系。然而,这些方法普遍存在一些问题:如存在噪声干扰、难以捕获关系对的有效特征表示等。异质关系网络包含了丰富的关系结构和语义信息,通过对异质关系网络的有效表征将提升模型在下游应用任务的学习能力。本文面向不同的非编码RNA与疾病关联识别任务,提出多种基于异质关系网络表征的关联识别方法,旨在充分挖掘非编码RNA与疾病的隐层关联模式,提升非编码RNA与疾病关联识别的准确性和全面性。本文主要研究内容包括以下四个方面:(1)针对长非编码RNA与疾病关联识别中,关系对特征存在噪声且忽略网络邻域结构问题,本文提出了一种基于异质关系结构学习的关联识别方法i LncRNAdis-FB(identification of LncRNA-disease association by fusing Feature Blocks through CNN)。该方法整合长非编码RNA与疾病的多源生物先验知识,从不同角度构建长非编码RNA与疾病的异质关系网络。提出长非编码RNA与疾病关系对的三维特征块表示策略,捕捉网络中同一类型节点和不同类型节点间的关系结构,并通过卷积神经网络消减三维特征块的噪声,提取关系对的有效高层特征表示。实验结果表明,i LncRNAdis-FB方法能够学习网络中关系边的强鉴别性特征,提高在多个应用场景中长非编码RNA与疾病的关联识别性能。(2)针对环状RNA与疾病关联识别中,关系网络标签噪声较大和异质关系学习不充分问题,本文提出了一种基于关系网络校正和图正则化的关联识别方法iCircDA-GNMF(identification of CircRNA-Disease Association based on Graph regularized Non-negative Matrix Factorization)。该方法利用异质关系网络中环状RNA和疾病的同类型邻居节点交互谱,分别从水平和垂直方向校正关系邻接矩阵,以消减初始关系网络中的假阴性噪声。在子空间学习目标中增加图正则约束项,促使相似环状RNA、相似疾病在隐层子空间的分布距离更接近。实验结果表明,iCircDA-GNMF方法能够克服噪声干扰,补充有益于模型学习的语义信息,并且增强子空间特征对生物实体异质交互关系的拟合,进而提升环状RNA与疾病的关联识别性能。(3)针对环状RNA与疾病关联识别中,现有方法难以有效预测新环状RNA相关疾病的问题,本文分别提出了基于排序学习和基于关系度量融合的关联识别方法。这两种方法将环状RNA与疾病的关联识别问题看作搜索任务。基于排序学习的方法i CircDA-LTR(identification of CircRNA-Disease Association based on Learning To Rank)从多个角度描述关系对特征,并对查询环状RNA的关联疾病排序信息进行建模,在模型优化过程中更加注重对生物实验验证关联对的学习。此外,为了提升关系对相关程度度量的全面性,提出基于关系度量融合的关联识别方法iCircDA-FRM(identification of CircRNA-Disease Association by Fusing Relation Measure models)。该方法首先构建环状RNA与疾病的异质关系网络,通过排序学习框架有监督地融合多种基于异质关系网络的关系度量得分。实验验证了iCircDA-LTR和iCircDA-FRM两种方法在预测新环状RNA相关疾病列表的有效性。(4)针对难以从多源异质数据中有效挖掘多类别非编码RNA与癌症关联模式问题,本文从不同角度融合单类别关联识别研究中的异质关系信息和关键网络表征技术,旨在同时识别三类“现代”非编码RNA与癌症的关联关系。首先,提出了基于层次图注意网络的多类别关联识别方法iNcRCA-HGAT(identification of NcRNA-Cancer Association based on Hierarchical Graph Attention network),该方法提取十种生物实体间异质交互关系,基于七条不同元路径构建三层多类别非编码RNA与癌症的异质关系网络,考虑不同异质关系网络的质量和节点表达能力差异,设计双层图注意网络聚合节点在多层异质关系网络中的语义表达信息。此外,依据不同类型网络表征算法的互补性,提出了多类别关联识别的表征融合方法iNcRCA-ENR(identification of NcRNA-Cancer Association based on Ensemble Network Representation)。该方法集成多种网络表征算法整合节点属性和网络结构信息,并利用卷积神经网络过滤表征噪声,提取多类别关系对的高层特征。与基方法相比,iNcRCA-HGAT和iNcRCA-ENR方法能够有效捕获多类别非编码RNA与癌症的关联模式,取得较优的多类别关联预测性能。综上所述,本文在深入研究和讨论非编码RNA与疾病关联识别问题的基础上,提出了多种基于异质关系网络表征的关联识别方法。实验结果表明提出方法能够有效挖掘潜在的非编码RNA与疾病的关联关系,从而为疾病的生物实验研究提供候选分子标志物,促进疾病的早期诊断和靶向药物研发。