论文部分内容阅读
MicroRNA(miRNA)是由20~24个核苷酸构成的一类微小内源性单链的非编码RNAs。目前的许多研究表明,miRNAs和众多人类疾病关联密切。同时,miRNAs也和表型存在很强的联系。在此基础上,考虑利用miRNA作为生物标志物来标记不同人类疾病的可能性,以及利用miRNA和人类疾病的关联关系帮助研究人员深入理解疾病病因的分子机制,进而对相关疾病的药物开发和防治做出重要的贡献。因此,利用生物信息学探明每种miRNA和每种人类疾病之间的关联关系成为当下的一个研究热点。基于相似度计算的计算预测方法主要可以分为两类:一类是基于已知关联关系构建网络的方法,需求高性能的生物网络;另一类则是基于机器学习的方法,需求负样本集。本文使用相似度计算方法整合多源生物数据构建高质量的相似度数据,并结合卷积神经网络,探明未知的miRNA-疾病关联关系,由此提出两种计算模型。其一,基于正样本学习的miRNA与疾病关联关系预测方法。利用正样本提取miRNA和疾病在共享低维度空间中映射的隐特征,通过映射后的miRNA和疾病各自的潜在特征向量为每个miRNA-疾病关系对构造特征表达。最后利用卷积神经网络完成关系对的学习和预测。其二,考虑到基因在miRNA-疾病相互作用中起到的关键桥梁作用,将基因-疾病关联关系、靶基因-miRNA以及基因间的相互作用网络加入miRNA-疾病网络的构建中,得到疾病-基因-miRNA的三层网络。通过挖掘网络的拓扑结构信息和节点间的潜在信息来得到miRNA-疾病关系对的特征表达。在5-折交叉验证实验中,两种方法在miRNA-疾病关联数据集上取得的AUC分别为90.30%、90.43%,均高于其他先进算法。在肺肿瘤、心脏衰竭案例中,预测的top-50候选miRNA大部分可以在数据库和文献中得到验证。同时,两种方案不仅应用于预测miRNA-疾病关联关系,而且也能完成miRNA-表型关联关系预测任务。