论文部分内容阅读
破解人类疾病的遗传基础是生物医学研究的重要目标之一。正确确定疾病与基因之间的联系,已经是生物学研究许久的一个课题。致病基因预测对于疾病的预防,诊断和治疗都有重要作用。随着生物学中基因-疾病表型关联数据集的大量出现,我们可以利用统计和机器学习的方法来帮助我们实现这一目标。新兴的网络表示学习方法已经被证明在很多任务中都取得了良好的效果,比如聚类,节点分类和链路预测等,因此本文尝试将网络表示学习的方法用于致病疾病预测。本文创新性的提出了基于异构网络表示学习的致病基因预测算法Multipath2vec。Multipath2vec算法首先利用现有的蛋白质相互作用网络,疾病表现相似度数据和基因-疾病表型数据构建一个异构网络,接着我们设计了一种新的多路采样方法采样网络中的路径信息作为输入,输入到网络表示学习方法当中,然后利用学到的每个网络节点的向量表示来计算目标疾病表型与各个基因的相似度,按照相似度由高到低排序,由此进行致病基因预测。在Multipath2vec算法的基础上,为了克服上下文关系稀疏的问题,本文创新性的提出了一种基于新的高度多路游走的异构网络表示学习方法HDpath2vec算法用于致病基因预测。同样的,HDpath2vec算法也需要构建一个基因和疾病表型关联的异构网络,然后利用基于高度多路游走的异构网络表示学习将网络节点映射到低维的向量空间,节点向量中保留了丰富的网络结构和语义信息,最后进行相似度计算和排序,达到预测致病基因的目的。本文在也分别在单致病基因数据,多治病基因数据和全治病基因数据上,与致病基因预测领域的几个经典算法和异构网络表示学习领域的经典算法进行了对比实验来验证Multipath2vec算法以及HDpath2vec算法的有效性。而最终的实验结果表明Multipath2vec算法和HDpath2vec算法相比其他几个对比算法在致病基因预测上取得了更好的效果。