论文部分内容阅读
随着大数据技术的发展,现实中应用到的数据量越来越庞大,数据种类也日渐丰富,多种数据所构成的异构网络的应用更加广泛,比如文献数据库、社交网络、商品推荐系统、生物信息等,这些数据库系统都是由不同种类的数据所构成的异构信息网络。在这些异构数据中,我们要有效地筛选出可用数据,并且从中挖掘出有意义的信息,才能充分实现数据的价值。因此,在异构信息网络上进行数据挖掘任务就具有极其重要的研究价值。其中,生物信息异构网络的应用意义尤其突出,由药物和人类基因构成的异构网络揭露了药物与基因之间的相互作用关系,研究该网络中节点之间的相关性并对未知的作用关系进行预测不仅可以有效地解释药物如何影响人类基因的表达,也可以通过检测人类基因表达的扰动水平来对药物性能进行评估。出于这样的目的,本文着重研究了针对药物和基因组成的生物信息异构网络的预测算法,并对新提出的方法和传统预测方法进行了性能对比。具体地,我们做了如下三项工作和创新:(1)在药物-基因网络的基础上加入副作用数据,扩展药物-副作用之间的关系。并创新性地在药物-基因生物异构信息网络上运用表示学习的方法提取网络中的结构特征,运用两种表示学习算法,把网络中的结构特征和语义特征嵌入到节点的表示向量,结合核化贝叶斯矩阵分解算法对矩阵中潜在药物-基因相互作用关系进行预测。最后,为了验证表示学习模型对特征的提取效果更好,我们在真实的数据上与已有的一些常用算法进行了对比。(2)运用归纳矩阵补全的方法,在传统矩阵分解的基础上使用线性低秩矩阵模型替换原有潜在关系矩阵,弥补了传统算法无法对新节点进行预测的缺陷,在由药物、基因和副作用真实数据组成的生物异构信息网络上进行了归纳矩阵补全算法的预测效果验证,并与已有的传统链接预测算法进行对比。(3)优化基于元路径的算法,分析元路径结构无法有效挖掘异构网络中潜在的结构关系的缺点,并在此基础上把元图结构的概念应用到生物异构信息网络的链接预测问题上。运用基于元图的随机游走算法从异构信息网络中获取有用的元图结构,并根据元图进行矩阵分解分别得到药物和基因的隐性特征。根据基于元图的隐性特征,结合分解机对药物-基因之间的相互作用关系进行预测,并与传统的链接预测算法进行结果对比。