基于缺失多视图矩阵补全的基因—疾病关联关系预测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:COMMA87730030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遗传性疾病严重威胁人类健康,破解基因和疾病之间的联系已经成为生物医学研究的重要目标,发现与疾病密切相关的基因对于疾病的预防、诊断及治疗具有极其重要的意义。随着各种生物数据的不断挖掘以及计算机技术的飞速发展,针对基因-疾病关联关系预测问题已经提出了很多方法。然而,现有的预测方法大多采用两步策略,即先进行特征融合,再进行关联关系预测,忽略了这两步之间的促进关系。同时,这些模型没有充分挖掘基因和疾病的多源特征信息,往往会受到数据冗余和缺失的影响。针对这些问题,本文从不同角度提出了两种模型,主要研究内容如下:(1)针对现有两阶段模型的缺陷以及多源数据融合问题,提出了一种单步多视图归纳式矩阵补全模型。该模型利用多视图表示学习,充分挖掘基因和疾病的多视图数据的一致性和互补性信息,获得公共的潜在表示,同时也适用于不完整的多视图数据。此外,该模型在传统归纳式矩阵补全模型中引入自适应加权机制,对已知和未知关联的预测施加不同的惩罚,以适应大规模PU(Positive-Unlabeled)学习问题。将多视图表示学习和加权归纳式矩阵补全集成到一个联合模型中,同时学习潜在表示和预测矩阵,相互促进,不仅可以改善潜在表示学习,而且能够提升预测性能。最后,在真实的基因疾病数据集上进行了大量实验,验证了该方法相比于其他方法具有更优的性能。(2)针对浅层线性模型在提取非线性特征及学习复杂关联方面的局限,提出了一种深度多视图归纳式矩阵补全模型。该模型通过嵌套的自编码网络将多视图数据集成到完备表示中,在一个统一的框架内同时进行视图特定表示学习(通过内层自编码网络)和多视图共享表示学习(通过外层自编码网络),灵活地平衡了多视图数据的一致性和互补性。结合多模态低秩双线性池化网络对关联关系进行预测,充分挖掘基因与疾病之间的复杂关联。最后,真实数据集上的实验证明了该模型的有效性和优越性。
其他文献
计算机视觉的一个重要研究方向就是人脸表情识别,人的面部表情是其情绪的重要外在表现,甚至可以说是最重要的外在表现,人与人之间的情感交流很多时候都是通过我们的面部表情来完成的。因此,通过研究计算机对于人脸表情的识别,可以有效的帮助机器理解人的情感,促进人机交互的发展。不过由于一部分人脸表情的界定比较模糊,加上人脸的姿态以及人面部周围的环境的影响会导致机器对于人脸表情的判断的鲁棒性大大降低。本文通过实验
学位
随着无线通信技术的快速发展,5G网络大规模部署,开启了万物互联的新时代。物联网(Internet of Things,Io T)节点如传感器等低成本低功耗设备的数量呈现指数式增长,Io T节点大多以无线设备的形式存在于无线网络中,而无线设备的持续运行依赖于内置的电池供能。但电池容量是有限的,无法在不充电、不更换的情况下长时间为无线设备供能。海量的无线设备带来了巨大的人力运维成本,如何源源不断的为无
学位
随着智慧城市中智慧安防建设的持续推进,一个二线以上城市智慧安防拥有的监控摄像头数量通常会接近或超过百万,智慧监控要求已从看得见、看得清向看得懂进行转变。针对如此巨大规模的摄像头,仅依靠人工浏览对视频监控系统中每个摄像头的质量进行检测评估已变得不太现实,开展城市级规模摄像头的科学视频质量管理已经成为智慧安防的研究热点之一。本文针对城市级视频监控系统中百万及以上摄像头的视频图像的质量评估系统、方法及设
学位
随着人工智能、大数据、物联网等技术的发展,越来越多的数据通过传统传感设备或智能移动设备产生和收集,为了提高数据的传输效率和可用性,原始数据往往需要借助边缘计算进行初步的分析和处理,因此边缘计算网络中将存在大量的可用数据,如果这些数据能够直接在边缘网络中共享,将极大地提高数据的利用率以及加快城市的现代化进程。因此如何在异构边缘节点之间安全地进行数据共享也是当前的一个研究热点。针对边缘计算中数据共享的
学位
文字识别技术是为了将光学字符转变为计算机能够识别的文本字符,使得计算机能够对识别出的文字信息进行更深层次的操作,让人们的生活和工作更加便捷化和智能化。随着OCR技术的迅速发展,有关文字识别的软件层出不穷,应用于金融行业、汽车行业和快递业务等多个领域,但由于中文字符拥有庞大的字符集,其字型结构也较为复杂,因此中文字符的识别技术更加困难。开源引擎Tesseract不仅支持多种字符的识别,还可根据不同的
学位
无线通信技术的发展,给人类社会生活带来了极大的便利,每个人的社会活动都随时进行着信息传递,个人信息传输的效率和质量应是一个需要重点研究的问题。尤其在5G,6G等高频通信技术下,会有更多的终端接入互联网,需要传输的数据将是以前不可想象的。因此,对于无线通信系统信息传递的全过程,各个阶段的研究必须进行客观深入的开展,才能为人类生活提供更好的保障。在非正交多址(Non-Orthogonal Multip
学位
目前人工智能处于飞速发展时期,人类不断突破技术难点,更新人机交互方式。语音识别是语音交互的基础,因此语音识别技术成为国内外众多学者的研究热点。随着神经网络的兴起及计算机性能的提升,科学家将神经网络应用到语音识别中,使识别率有了显著的提高,同时推动了语音识别类产品的商业应用。本文主要研究基于Kaldi的中文语音识别。阐述了语音识别的基本原理及语音信号特征提取方法,介绍了开源工具Kaldi的WFST解
学位
随着全球移动互联网人口规模不断扩大、人均使用时长日渐增加,新时代的无线通信技术需具有更高的频谱效率(Spectral efficiency,SE)、满足更大规模的用户/设备连接、提供更快的数据传输速率等,传统的正交多址接入技术(Orthogonal Multiple Access,OMA)已逐渐不能满足用户的需求。与正交多址技术不同,非正交多址接入(Non-orthogonal Multiple
学位
随着人工智能技术的不断发展,异常检测技术拥有很高的应用价值,广泛应用于入侵检测、故障检测和安防监控等领域。然而,在大数据时代,信息系统产生的数据不仅规模庞大且复杂多变,再加上异常的不可预知性,使得异常检测成为一项非常具有挑战性的工作。近年来,深度学习在异常检测问题上取得巨大的成功。相比于传统异常检测方法,深度学习在无需复杂特征工程的前提下就可以获取大型高维数据中的复杂模式。深度自编码器是异常检测问
学位
电子材料作为整个材料行业不可或缺的一部分,被广泛应用于电子设备中。由于微型化和高度集成化的发展,大气环境下的腐蚀对其内部电子电路和元器件的性能造成严重的影响,导致电子设备失效。印刷箔层压板(PCB-Cu)与化学镀镍金处理技术(PCB-ENIG)以其优良的导电性,被应用于印制电路板(PCB)工艺中,因而PCB-Cu与PCB-ENIG在大气环境下的腐蚀成为学者们的研究热点。本文基于腐蚀机理与元胞自动机
学位