论文部分内容阅读
代谢是人体细胞的重要活动,代谢物作为其活动产物,是人体重要的分子组成部分,它们与人类疾病的状态密切相关。代谢紊乱在许多常见疾病的发展过程中起着重要的作用。识别与疾病相关的关键代谢物可以帮助人们更好地了解疾病的机制。通过计算方法预测疾病相关代谢物可以为进一步的生物实验提供潜在的生物标志物。现有数据库中关于代谢物的文本注释提供了丰富的先验信息,可以提供更多关于代谢物的信息,这些文本注释信息是否能够提高代谢物-疾病关系预测的能力是一个未知问题。本文的研究探索了这一问题,通过使用多种神经网络模型从代谢物和疾病的文本注释中提取不同层次的文本特征,并将这种特征融入概率矩阵分解算法,用以预测代谢物和疾病的关联。第一,提出一种融合深度文本特征的概率矩阵分解的方法(MFDTF),用以预测代谢物-疾病关联。首先,利用卷积神经网络和门控循环单元网络相结合的神经网络,从代谢物和疾病的文本注释中提取相应的特征。然后结合已知的代谢物-疾病关联,经过概率矩阵分解算法得到代谢物-疾病的潜在特征,从而得到预测的代谢物-疾病关联。本文在数据库中提取了 407种疾病和2350种代谢物,并用留一法交叉验证证实了添加文本信息能够有效提高模型的预测能力。案例研究表明MFDTF模型具有预测疾病相关代谢物的能力,同时对结肠直肠癌不同发展阶段的代谢谱数据进行差异分析,结果表明预测的部分候选代谢物在健康和患病样本中存在显著差异。第二,在以上模型中,提出一种引入注意力机制提取代谢文本中的深层文本特征(MFADTF-MD)的方法,用于代谢物-疾病关联预测。注意力机制对于特征的提取具有重要作用,本研究通过结合卷积神经网络、门控循环单元网络和注意力机制,获得代谢物和疾病的深度文本特征。在代谢物和疾病的关联矩阵上执行融合深度文本特征的概率矩阵分解算法预测潜在的代谢物-疾病关联。通过使用留一法交叉验证,与其他四种算法对比,MFADTF-MD模型的AUC值最高,表明注意力机制的使用有利于提取更深层的文本特征。此外,三种常见疾病的案例分析表明预测的候选代谢物大部分都能被文献验证,说明该模型具有较好的预测能力。本文提出的代谢物-疾病关联预测方法表明关于代谢物描述的文本特征能有效提高模型预测能力,这为开发新的代谢物预测计算模型提供了思路。