基于多模态深度神经网络的lncRNA识别

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:wzhi8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的高速发展,人们可以在短时间内得到大量的原始生物序列,其中就包含非编码RNA序列。非编码RNA(non-coding RNAs,nc RNAs),是指不能翻译为蛋白质的RNA,长非编码RNA(long non-coding RNAs,lnc RNAs)是长度大于200个核苷酸的nc RNAs。Lnc RNA在细胞生长凋亡、疾病调控和遗传表达等方面发挥着重要的作用。从海量序列中精准识别出lnc RNA,可以为进一步研究lnc RNA的结构和功能奠定基础。本文选取人类和小鼠的lnc RNAs和蛋白质编码转录本(protein-coding transcripts,PCTs)平衡样本作为实验主数据集,选取果蝇和斑马鱼作为跨物种数据集,构建了基于卷积神经网络(CNN)与图卷积神经网络(GCN)的单模态和多模态模型用于识别lnc RNA。其中,单模态模型包括CNN和GCN模型,CNN模型分别作用于lnc RNA的一级序列和二级结构序列(以下简称CNN-First和CNN-Second);GCN模型作用于lnc RNA的二级结构平面图。多模态集成模型由CNN-First、CNN-Second和GCN三个模型通过投票的方式集成得到,集成模型可以同时提取lnc RNA的序列信息和平面结构信息。单模态和多模态模型均以五折交叉验证(5-CV)的方式在实验主数据集上进行训练测试,并将跨物种数据集作为独立数据集进行测试。同时,为了验证模型的鲁棒性,构建了基于主数据集的不平衡样本数据集以5-CV的方式进行训练测试。实验结果表明,在主数据集和跨物种数据集上,集成模型识别效果均显著优于单模态模型。其中,集成模型在人类主数据集上ACC值为93.51%,AUC值为96.07%,在小鼠主数据集上ACC值为94.64%,AUC值为95.55%。将集成模型与其他经典的lnc RNA识别方法进行对比,集成模型的识别结果也表现出了一定的优势。综合实验和对比结果,我们认为集成模型在lnc RNA识别问题上具有较高的准确度和可信度。
其他文献
超分辨率重建主要指通过软件或算法对图像分辨率进行二次提升,得到高分辨率图像。近年来,基于深度学习的图像超分辨率重构技术发展迅速,具有经济成本低、部署难度小等优势,是目前图像分辨率提升的有效方法。但相较于普通图片,遥感影像储存的信息量更庞大,所含地物间的关系更复杂。若将目前针对于普通图片设计的超分辨率网络模型直接套用在遥感影像的处理上,往往会出现训练不稳定、网络收敛速度慢、重构图像光谱失真和边缘细节
非负矩阵和M矩阵有广泛的应用背景,它们在物理、生物、运筹、金融等方面的研究中都有涉及.Hadamard积和Fan积是两类比较特殊的矩阵乘积,在数学研究中,越来越多的问题都会涉及到Hadamard积和Fan积的数值计算.而矩阵的特征值估计也一直是矩阵分析中比较热门的课题,在实际应用中,例如求权系数的图论方法以及生产系统的设计等等都会涉及到.然而,当矩阵的维数比较大时,逆矩阵和特征值的求解往往是十分困
在地下工程的建设过程中,由于施工对岩石的扰动,其原应力场发生改变,岩石中随机分布的微裂隙,将进一步萌生和扩展,进而降低岩石的刚度和强度。地下岩石开挖区域的稳定性评价方法对于施工过程中的安全问题至关重要。声波检测技术作为一种无损检测方法,可以利用波速等信息高精度地检测岩石内部的状态。地下工程隐蔽性高,施工人员无法直观的观察到地下工况的变化,为此,本文选用声波检测技术针对岩石微裂隙的几何特征及受载情况
装甲车加装防护底板,可以有效的防御带药型罩炸药带来的侵彻,但是装甲车会越来越重,因此在不影响防护板抗侵彻能力的前提下降低其重量是很重要的。蜂窝材料是一种相对密度小、强度高、吸能能力强、缓冲能力强的新型工程材料,可以有效的降低防护板的质量。药型罩侵彻蜂窝板过程会涉及材料的大变形,传统有限元法数值模拟时会出现网格畸变,物质点法是一种新型的无网格法,适合模拟带药型罩炸药侵彻板大变形问题。本文基于物质点法
合同应当严守,一般情况下违约方不能享有合同解除权。2006年,《最高人民法院公报》登载的“新宇公司与冯玉梅案”,首次确立了违约合同解除权。审判实践中,在裁判观点上虽越来越倾向于支持违约方解除合同,但同样存在不支持违约解除合同的裁判观点。在支持违约方合同解除权裁判观点中,论证的理由并不一致,且在合同解除的时间、合同解除方式及违约责任的承担等方面,亦未达成共识。合同僵局是一种客观的存在,在《民法典》的
碳点(CDs)作为一种传感器基元,具有独特的光学特性及可调控的表面性能,广泛应用于多个领域。传感器阵列兼具响应广泛、灵敏度高、输出信号丰富等优势可用于多种分析物的同时检测。本文拟以3种氮掺杂CDs为合成对象,构建荧光传感阵列,研究传感阵列对酪氨酸代谢产物识别性能;采用CDs1和CDs2与精氨酸构建传感阵列,探究传感阵列对金属离子识别特性。主要研究工作如下:(1)CDs的制备与表征:以水热法合成CD
MicroRNA(miRNA)是非编码RNA分子,它的核苷酸的长度约为21左右,通过碱基配对来控制mRNA的降解和表达。有研究表明,miRNA在细胞增殖、分化、死亡等过程中起着至关重要的作用。有大量的实验数据和案列研究已经证明,miRNA与疾病有密切的关联,miRNA的异常会引发多种疾病。因此,识别miRNA和疾病的关联,可以帮助治疗疾病和预防疾病的发生。目前,实验方法虽然可以得到与疾病相关的mi
Fenton氧化技术在工业废水处理中虽然能达到较好的效果,但该技术一般要求反应pH值在3左右,导致在废水处理前后均需调节pH值,这使得Fenton氧化技术适用性受限的同时也会对反应器造成腐蚀,加大经济损耗。另外,Fe3+向Fe2+转换的速率较慢以及H2O2的自我分解导致Fenton试剂利用率较低,降低了Fenton氧化效果。为强化Fenton氧化效果,本论文利用过氧化钙(CaO2)的强氧化性来增强
厌氧暗发酵制氢能够以高浓度有机废水为原料产生氢能,应用前景广阔;但该方法受到废水盐分及种类等多种因素的影响,限制了厌氧生物制氢的发展;硝酸盐在食品加工等多种高浓度有机废水中广泛存在,因此,本文利用课题组筛选得到的一株高效厌氧产氢菌Enterobacter sp.HDX08(简称:菌HDX08),研究不同NaNO3浓度对其厌氧产氢性能的影响;通过对ORP、辅酶NADH、关键酶活、中间产物、氮平衡计算
近年来,大量研究表明,对microRNA的研究有助于人类复杂疾病的预防、诊断和治疗。microRNA参与许多关键的生物学过程,也是人类复杂疾病的发病机制,这表明识别microRNA与疾病的关联可以使我们在microRNA水平上了解疾病。因此,揭示越来越多的microRNA与疾病的潜在联系是生物医学领域的一个重要课题。由于利用传统生物实验检查所有可能的microRNA-疾病关联所需的资源和时间成本昂