基于异构网络表示学习的致病基因预测方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:chen2960798
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
破解人类疾病的遗传基础是生物医学研究的重要目标之一。正确确定疾病与基因之间的联系,已经是生物学研究许久的一个课题。致病基因预测对于疾病的预防,诊断和治疗都有重要作用。随着生物学中基因-疾病表型关联数据集的大量出现,我们可以利用统计和机器学习的方法来帮助我们实现这一目标。新兴的网络表示学习方法已经被证明在很多任务中都取得了良好的效果,比如聚类,节点分类和链路预测等,因此本文尝试将网络表示学习的方法用于致病疾病预测。本文创新性的提出了基于异构网络表示学习的致病基因预测算法Multipath2vec。Multipath2vec算法首先利用现有的蛋白质相互作用网络,疾病表现相似度数据和基因-疾病表型数据构建一个异构网络,接着我们设计了一种新的多路采样方法采样网络中的路径信息作为输入,输入到网络表示学习方法当中,然后利用学到的每个网络节点的向量表示来计算目标疾病表型与各个基因的相似度,按照相似度由高到低排序,由此进行致病基因预测。在Multipath2vec算法的基础上,为了克服上下文关系稀疏的问题,本文创新性的提出了一种基于新的高度多路游走的异构网络表示学习方法HDpath2vec算法用于致病基因预测。同样的,HDpath2vec算法也需要构建一个基因和疾病表型关联的异构网络,然后利用基于高度多路游走的异构网络表示学习将网络节点映射到低维的向量空间,节点向量中保留了丰富的网络结构和语义信息,最后进行相似度计算和排序,达到预测致病基因的目的。本文在也分别在单致病基因数据,多治病基因数据和全治病基因数据上,与致病基因预测领域的几个经典算法和异构网络表示学习领域的经典算法进行了对比实验来验证Multipath2vec算法以及HDpath2vec算法的有效性。而最终的实验结果表明Multipath2vec算法和HDpath2vec算法相比其他几个对比算法在致病基因预测上取得了更好的效果。
其他文献
本文旨在研究日本中高级水平汉语学习者词汇搭配的表征方式及影响因素。具体研究问题为:一是日本中高级水平汉语学习者对于汉语搭配加工是否有整体性表征倾向,且一致性和频率
中国传统文化博大精深源远流长,蓝染作为一种古老的印染工艺,就像一颗夜明珠在中国的历史长河中闪烁着耀眼的光芒。经历了数千年历史文化的积累和演变,蓝染呈现出日趋多样的
《世间已无陈金芳》的发表,让青年作家石一枫受到了评论界广泛的关注,纵观石一枫的创作历程,其写作风格发生了明显的改变。在石一枫早期的文学创作中,他更倾向于从自己的青春
河水东流,浩浩荡荡,只为汇入汪洋大海;禾苗破土,酷暑严寒,阻挡不了它节节向上;万物生长,周而复始,唯一不变的就是变。在人生的舞台中,我们每个人都是参与者,演绎着各自的生命
随着人口老龄化不断加剧,骨缺损的患者逐渐增多,研究应对骨缺损的可靠治疗方法十分重要。在众多疗法中,骨组织工程支架具有来源广泛、不会造成二次创伤等特点,是治疗骨缺损的
北宋一代名相王安石,在政治上一往无前、勇为新法,导致近千年来骂名与褒誉并存,但即便后世学者因各自立场差异,对王安石的政治举措与学术思想或揄扬、或贬斥,但对其文学成就,
学习韧性是学习者在面临学习困境或挑战时表现出的成功应对和良好适应的能力。学习适应性是指学习者能够根据学习过程中条件的变化,主动做出身心调整,以求达到内外学习环境相
“无忧是人们的一种理想状态”,常说,童年时代的生活无忧无虑,着实令人怀念,特别在当今竞争日益激烈的社会,思虑欲念不断萌生,越发使人想回到淳朴本真的生活。本作品以宠物狗
佛教作为世界三大宗教之一,在文化与思想方面都有着本民族浓厚的传统特色,罗汉以其独有的象征意义而受人敬仰。罗汉作为佛教的信仰对象,他代表着除去生活中的所有烦恼,帮人逃
牧区的基层民主制度的建设工作逐渐提到日程中,该项制度的建设质量直接影响牧区的局势发展,当然也是中国社会主义政治体制实现深化改革的关键性工作,嘎查基层民主制度建设的