基于生成对抗网络的lncRNA-疾病关联预测模型研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:zjhzjhzjh111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长非编码RNA(lncRNA),本质上是指长度超过200nt的核糖核酸分子,它参与到许多的生物学进程中。目前已有的lncRNA相关病理和关键功能实验证实,lncRNA的失调和突变能够引发人类诸多重大生理疾病。因此,开发设计出一种有效的计算方法来预测lncRNA与疾病之间的相关性,能够为生物实验提供符合实际的lncRNA-疾病关联信息,提高生物实验的效率。目前基于计算模型的lncRNA-疾病关联预测方法面临着已知lncRNA-疾病关联数据缺乏的挑战,且它们难以集成差异化的多种数据源,使预测工作往往忽略了不同数据源之间的潜在关联和噪声,因此容易出现特征向量维度爆炸、模型训练过拟合或欠拟合等问题。针对以上问题,本文基于生成对抗网络(GAN)的半监督学习能力,提出一种新的基于GAN的lncRNA-疾病关联预测模型hLDA-GAN。hLDA-GAN主要优势有如下:1.hLDA-GAN生成器的更新信息来自判别器,而不是直接来自输入数据,这使得生成器在判别器的指导下,能够专注于学习lncRNA-疾病的真实关联,避免受到关联数据中噪声的影响。在极大极小化的对抗训练中,生成器学习到的lncRNA-疾病关联分布可以被不断地纯化。因此,hLDA-GAN通过结合标记和未标记的数据来学习数据的真实分布,可有效克服已知lncRNA-疾病关联数据缺乏的问题。2.hLDA-GAN模型可融合多源数据信息。本模型通过提取lncRNA-疾病、lncRNA-mi RNA、lncRNA-基因、疾病-mi RNA、疾病-基因以及mi RNA-基因之间的关联信息构建异构信息网络,利用注意力机制聚合不同元路径的相似性矩阵得到综合的lncRNA对疾病的偏好向量,同时使用k-mer方法提取lncRNA的序列特征,提高了模型预测的准确性。3.在模型评估实验中,本文模型与LDAP、SIMCLDA和MFLDA模型相比有更好的性能,其AUC值分别提高5.6%、16.6%、19.8%。另外,为了进一步验证实验框架的预测性能,本文选取三种lncRNA,分别为SNHG7、CCAT2和CYTOR进行案例分析,结果表明hLDA-GAN预测结果较好。综上所述,hLDA-GAN将生成器和判别器集成在一起,建立可靠的优化目标,降低数据噪声对模型的影响,使模型在对抗学习过程中实现了高稳定性和高效率。同时hLDA-GAN融合多源数据信息,并充分发挥了非标记数据生成对抗学习框架的半监督学习优势,可以根据已有信息为特定的lncRNA生成疾病偏好向量,并进一步为其推荐一个疾病关联列表,在真实数据集上开展的全面实验,证实了本文所提出方法的有效性。
其他文献
石墨烯的出现掀起了人们对二维材料的研究热潮。与块体材料相比,二维材料大多具有超薄的极限沟道厚度、高载流子迁移率等特性,有望为后摩尔时代微电子器件的发展带来新的曙光。其中,二维层状材料如石墨烯和二硫化钼等已在众多领域呈现出良好的应用前景。然而,各自固有的不足在一定程度上限制了它们在半导体器件中的广泛应用。黑磷(BP)具有可调的直接带隙、明显的层内各向异性、合适的载流子迁移率和开关比、良好的机械柔韧性
学位
本论文通过溶胶凝胶法制备了铜锡硫(Cu2SnS3,CTS)薄膜及其太阳电池,优化组分得到了 2.18%的转换效率,远远低于理论上能超过30%的效率。而CTS太阳电池遇到的瓶颈主要是薄膜质量较差导致的串联电阻高,且漏电严重,以及载流子浓度过高导致的复合严重等问题。因此采用了银锗共掺杂的方式能有效地降低铜空位为主的载流子浓度,且Ag和Ge在部分分别替代Cu和Sn后均有利于提高薄膜带隙,由此我们展开了详
学位
太阳能热水工程在工农业和民用领域已得到广泛应用。而储热水箱(罐)作为太阳热水系统中核心部件,在设计时既要充分考虑其取热水时的放水性能,使水箱中的热水尽可能多的取出,也要考虑到施工、安装及维护的方便和与建筑充分一体化。储热水箱形状及结构是影响水箱排水性能的关键因素。方形水箱以其制作、安装方便、易与建筑一体化,受到建筑设计行业的青睐,但对其排水性能的研究还有待深入。为了解方形储热水箱内排水阶段因负浮力
学位
农村集体经济自上世纪50年代诞生以来,经历了不断深化拓展、发展提升的过程。进入新世纪后,随着工业化、城镇化步伐加快,农村集体产权制度改革成为必然,然而通过农村集体产权制度改革并不一定能够提高集体经济经营效率和经济效益,有效的产权制度只是集体经济发展的前提,法人地位缺失、治理结构失衡、自主发展乏力等问题仍然是制约集体经济持续发展的突出短板。随着市场化改革的深入推进,寻找一种集体经济和市场经济相契合的
学位
消费是满足人民对美好生活向往的重要方式,刺激农村消费市场、释放农民消费潜力,推动农村居民消费扩容提质升级是我国农村未来发展的重要方向。但我国目前大部分农村的消费需求仍然不足,农村地区的低消费水平已严重制约了全国整体消费水平的提升和中国农村经济“新常态”下得高质量发展。究其原因,其中重要的一点是农村金融市场发展的不完善导致的信贷约束严重影响了农户的消费升级。而中国农村是一个基于血缘、地缘的中国式“关
学位
随着绿色及可持续发展观念的不断普及,太阳能的利用越来越受到重视。太阳电池由于应用前景大好而受到大力研究。四元化合物半导体材料铜锌锡硒(Cu2Zn Sn Se4,CZTSe)因具有低成本、高吸收系数、组成元素储量丰富等优点而被广泛应用做薄膜太阳电池的吸收层材料。但由于CZTSe薄膜中固有的本征缺陷和缺陷团簇使得CZTSe薄膜太阳电池的效率难以提升。为了获得更高的器件效率,本论文通过溶液法在CZTSe
学位
为提高传统活性炭固体除湿剂吸湿量及降低传统热法再生能耗,解决高温高湿地区直接蒸发冷却效率不高及直接蒸发冷却后湿度过大等问题。本文基于活性炭改性,搭建了一套以太阳能热水集热器为再生驱动热源的蒸发冷却空调系统。该系统通过表冷器预先对高温高湿空气进行降温除湿,再将预处理后的空气进行一次除湿,再通过喷雾直接蒸发来进一步降低经活性炭除湿后的高温低湿空气,最后经活性炭除湿通道二次除湿,使之达到要求的送风状态。
学位
碎纸片拼接复原技术是图像处理与模式识别领域中的典型应用。通过提取碎纸片图像的颜色、形状和图像内容等信息,对其进行相应的处理,从而实现碎纸片图像的拼接复原。本文针对模拟切割的规则碎纸片进行拼接。选用碎纸片排版特征,基于水平投影相似度进行按行聚类,基于笔画连续性和深度卷积神经网络计算切口两侧相似度,采用基于相似度的带有拒绝策略的贪心算法进行碎纸片拼接复原。主要完成的研究工作和创新点如下:(1)提出了基
学位
基于深度神经网络模型的遥感影像地物检测取得了巨大成功,很大程度上得益于大规模数据集的支撑。但是,从现有遥感影像数据集本身来看,不同类别地物的数量分布不一致,同类地物对象以不同尺寸大小呈现,是导致地物样本的尺度不均衡问题的直接因素。对此,本文采用数据集内影像加权融合与地物多尺度特征选择的策略来缓解该问题。首先,将数据集内两张影像的像素值进行加权并得到融合后的影像,从而使不同类别地物样本更加均衡且具有
期刊
特征匹配是一项基础且重要的底层视觉感知任务,它是指在两个(或更多)具有潜在相似内容的图像之间寻找良好的对应关系。作为许多视觉任务的关键先决条件,特征匹配技术在过去的几十年里获得了飞速的发展。为了消除或减轻离群点(错误匹配)对后续任务的不适当影响,各种几何估计器被提出用来寻求可靠的特征对应关系。通常的做法是首先假设两个图像通过某种参数几何关系(例如,仿射或对极几何)耦合,然后与估计模型不一致的对应关
学位