融合文本特征和概率矩阵分解的代谢物—疾病关联预测

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:niyon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代谢是人体细胞的重要活动,代谢物作为其活动产物,是人体重要的分子组成部分,它们与人类疾病的状态密切相关。代谢紊乱在许多常见疾病的发展过程中起着重要的作用。识别与疾病相关的关键代谢物可以帮助人们更好地了解疾病的机制。通过计算方法预测疾病相关代谢物可以为进一步的生物实验提供潜在的生物标志物。现有数据库中关于代谢物的文本注释提供了丰富的先验信息,可以提供更多关于代谢物的信息,这些文本注释信息是否能够提高代谢物-疾病关系预测的能力是一个未知问题。本文的研究探索了这一问题,通过使用多种神经网络模型从代谢物和疾病的文本注释中提取不同层次的文本特征,并将这种特征融入概率矩阵分解算法,用以预测代谢物和疾病的关联。第一,提出一种融合深度文本特征的概率矩阵分解的方法(MFDTF),用以预测代谢物-疾病关联。首先,利用卷积神经网络和门控循环单元网络相结合的神经网络,从代谢物和疾病的文本注释中提取相应的特征。然后结合已知的代谢物-疾病关联,经过概率矩阵分解算法得到代谢物-疾病的潜在特征,从而得到预测的代谢物-疾病关联。本文在数据库中提取了 407种疾病和2350种代谢物,并用留一法交叉验证证实了添加文本信息能够有效提高模型的预测能力。案例研究表明MFDTF模型具有预测疾病相关代谢物的能力,同时对结肠直肠癌不同发展阶段的代谢谱数据进行差异分析,结果表明预测的部分候选代谢物在健康和患病样本中存在显著差异。第二,在以上模型中,提出一种引入注意力机制提取代谢文本中的深层文本特征(MFADTF-MD)的方法,用于代谢物-疾病关联预测。注意力机制对于特征的提取具有重要作用,本研究通过结合卷积神经网络、门控循环单元网络和注意力机制,获得代谢物和疾病的深度文本特征。在代谢物和疾病的关联矩阵上执行融合深度文本特征的概率矩阵分解算法预测潜在的代谢物-疾病关联。通过使用留一法交叉验证,与其他四种算法对比,MFADTF-MD模型的AUC值最高,表明注意力机制的使用有利于提取更深层的文本特征。此外,三种常见疾病的案例分析表明预测的候选代谢物大部分都能被文献验证,说明该模型具有较好的预测能力。本文提出的代谢物-疾病关联预测方法表明关于代谢物描述的文本特征能有效提高模型预测能力,这为开发新的代谢物预测计算模型提供了思路。
其他文献
随着web2.0技术的不断成熟,以及人工智能的飞速发展,计算机对于图片的理解程度逐渐趋于语义层面,对图像内容的识别和分类的研究也不再仅限于传统的底层特征。静态图像行为识
学位
当今时代,现代社会正逐步向智能世界迈进,使得具有刺激响应性的智能材料被大量制备并被广泛应用。其中具有光响应性的发光材料随着研究者们对固态发光分子的深入研究而逐渐被开发,并被制备成光电器件在多种领域表现出巨大的应用价值。基于氰基取代二苯乙烯型分子的合成及其优良的发光特性和光响应性的发现,为具有光响应性的智能高效的固态发光分子的设计与合成提供了重要依据。本文以氰基取代二苯乙烯基(CS)为基本单元,设计
在室外环境中,通过GPS进行定位的技术已经较为完善,但在室内环境里,由于建筑物的遮挡和室内环境复杂等原因,GPS定位精度较差,往往通过移动机器人自身携带的传感器获取位置信
作为世界上最大的温带干旱区域,中亚地区在全球气候环境变化中产生巨大影响而倍受关注,亚洲内陆干旱化是晚新生代以来全球气候恶化的重要标志。亚洲内陆也是耦合全球海-陆-气
光致电化学(Photoelectrochemical,PEC)生物传感器作为一种高效、灵敏的分析方法,兼具光学分析和电化学分析的优点,为肿瘤的诊断提供了强大的技术支持。在PEC生物传感器的构建
静脉穿刺是医院中常规的诊疗手段,广泛应用于静脉采血、输血、置管和点滴等场景。静脉穿刺通常靠医护人员手动完成,穿刺失败率较高,尤其是在诸如新冠肺炎疫情中容易造成医护
随着智能化矿山的建设,研究自主巡检机器人以实现井下无人化巡检已成为井下巡检机器人的研究重点。单一导航系统很难满足机器人在井下的自主导航要求,采用组合导航技术实现机
学位
随着经济的快速发展,环境污染带来的问题日益严重,如何实现节能减排改善环境污染已成为广泛关注的问题。燃煤锅炉作为造成环境污染的主力之一,实现锅炉系统的燃烧优化不仅可