论文部分内容阅读
随着高通量生物技术的蓬勃发展和普遍应用,越发多的研究证实长链非编码RNA(lncRNA)在各种生物过程中起着关键作用并与多种复杂疾病存在关联。因此,预测潜在的lncRNA-疾病关联不仅有助于在lncRNA水平上揭示疾病的分子机制,而且还有助于生物标志物的发掘,进一步促进疾病的预防、诊断和治疗。近年来,已提出了各种机器学习模型来预测lncRNA-疾病关联,基于数据融合的方法普遍取得最优的效果。早期的方法通过简单的分子属性向量拼接融合数据进而识别lncRNA-疾病关联,但忽略了不同类型数据源的内在特性并造成维度爆炸等问题。基于分类器集成的监督学习为不同的数据源分别建立不同的模型再集成这些模型进行lncRNA-疾病关联预测,但这种集成模型易受低质量基础模型的影响。多视图学习可也可融合异质数据进行lncRNA-疾病关联预测,但是该类方法必须将与lncRNA或疾病相关联的多源数据转换为其同质数据,存在转换信息损失。基于矩阵分解的数据整合技术可以保持异质数据源的内部结构,但是无法差异性整合数据源,或者更倾向于选择稀疏的数据源进行融合,降低了整合效果。因此,研究高效的基于多源数据融合的lncRNA-疾病关联预测方法十分关键。本文针对基于数据整合的lncRNA-疾病关联预测中存在的上述问题,以有效整合多源异质数据提高lncRNA-疾病关联预测精度为目标,设计协同矩阵分解模型与求解方法,对lncRNA-疾病关联预测展开研究,完成的主要工作如下:1、针对在集成过程中无法剔除噪声同质网络的问题,本文提出一种基于加权矩阵分解的lncRNA-疾病关联预测方法(WMFLDA)。WMFLDA首先通过收集不同类型节点(lncRNA、基因、疾病等)之间的异质网络和类内关联的同质网络来构建多类型生物分子网络,并初始化这些异质和同质关联网络的权重。再基于协同矩阵分解将这些关联矩阵分解为不同类型节点的低秩矩阵,以便探索节点之间的潜在关联。同时,WMFLDA利用同质网络引入平滑项约束来指导矩阵协同分解,实现各类型节点的低秩矩阵和各关联网络的权重在求解过程中共同优化。最后,WMFLDA利用优化后的lncRNA、疾病的低秩矩阵和权重来重构lncRNA-疾病关联矩阵,从而预测潜在的关联。实验结果表明,WMFLDA相比于现有的多源数据融合方法获得了更好的表现,差异性地融合同质数据源确实能够显著提升预测精度。2、WMFLDA验证了差异性地融合同质数据源对lncNRA-疾病关联预测的作用,然而,它仍存在偏向选择稀疏数据进行融合的问题。因此,本文进而提出了一种基于选择性矩阵分解的lncRNA-disease预测方法(SelMFDF)来解决已有基于矩阵分解的数据整合方法倾向于选择稀疏数据的问题。SelMFDF将多个关联网络协同矩阵分解为各类型节点的低秩矩阵,并自动优化不同网络的权重。SelMFDF同时借鉴网络对齐的思想,通过将这些低秩矩阵在优化过程中向多源同质网络对齐的方式来进行正则化约束。最后,使用优化后的低秩矩阵来重构目标关联矩阵。SelMFDF不仅可以预测异质关联(lncRNA-疾病关联、lncRNA-miRNA相互作用、蛋白质功能预测),还可以预测同质关联(蛋白质-蛋白质相互作用)。实验结果表明,SelMFDF的表现优于相关的基于多源数据融合的方法,同时克服了倾向稀疏数据源的缺陷。3、WMFLDA和SelMFDF两个方法都能够较好的解决差异性融合多源数据的问题,并提升了lncRNA-疾病关联预测精度,但是仍面临着需要将属性异质网络进行同质转换而造成信息损失及已知异质关联数据不完整等问题。因此,综合考了上述问题后,本文提出了一种基于属性异质网络协同矩阵分解的lncRNA-疾病关联预测方法(AHNF)。AHNF首先通过收集不同类型节点的关联和属性信息来构造分子属性异质网络,然后设置一个指示矩阵来对已知的异质关联和潜在的异质关联进行区分。接着,AHNF将异质网络中的关联矩阵、属性矩阵以及指示矩阵协同分解为低秩矩阵,融合网络的拓扑结构信息和节点的属性信息,降低已知关联不足的影响,进而降低了属性异质网络中因同质转换而造成信息损失。最后,AHNF使用优化后的低秩矩阵来重构lncRNA-疾病关联矩阵并预测lncRNA-疾病关联。实验结果表明,与相关的多源数据融合方法相比,AHNF在预测精度上取得了显著提升。本文还进一步研究了四种特定的复杂疾病(乳腺癌,胃癌,前列腺癌和胰腺癌),AHNF能够准确的预测与这些疾病密切关联的lncRNA。