【摘 要】
:
DNA结合蛋白(DBPs)和RNA结合蛋白(RBPs)在基因调控和基因表达中起着至关重要的作用,包括转录和选择性剪接。此外,大量研究表明一些蛋白与人类的疾病相关。因此,准确识别出与DNA/RNA结合的蛋白具有重要意义。由于DBPs和RBPs在生物上具有相似的功能结构,传统方法需要人工提取特征以及需要耗费很大的成本和时间,无法满足目前大规模基因组数据进行测试的需求。因此,如何有效地识别出核酸绑定蛋白
论文部分内容阅读
DNA结合蛋白(DBPs)和RNA结合蛋白(RBPs)在基因调控和基因表达中起着至关重要的作用,包括转录和选择性剪接。此外,大量研究表明一些蛋白与人类的疾病相关。因此,准确识别出与DNA/RNA结合的蛋白具有重要意义。由于DBPs和RBPs在生物上具有相似的功能结构,传统方法需要人工提取特征以及需要耗费很大的成本和时间,无法满足目前大规模基因组数据进行测试的需求。因此,如何有效地识别出核酸绑定蛋白在生物信息学中是一个重要的挑战。鉴于核酸结合蛋白在生物领域中的重要性,本文基于神经网络算法来对核酸结合蛋白进行研究,主要工作包括以下两点:(1)DNA蛋白结合的预测不仅有利于理解基因表达的调控机制,而且是计算生物学领域的一项具有挑战性的任务。传统的DNA蛋白绑定预测方法依赖于手工提取特征,可能会导致分类错误。近年来,深度学习比如卷积神经网络(CNN)成功地应用于分类任务,并显著提高DNA蛋白绑定的预测性能。然而,这些方法是基于原始的DNA序列建模,忽略多序列特征之间隐藏的复杂依赖性和互补性。考虑到这一问题,我们提出一种融合不同序列特征并通过多尺度CNN对这些特征进行系统地分析的方法。该方法首先在不同的DNA序列上设置不同长度的滑动窗口,生成长度不等的多个序列特征。然后,对多特征序列进行融合和编码,以进行特征表示。最后,利用不同结合基序长度的多尺度CNN自动学习和挖掘融合序列特征之间内部属性和隐藏的复杂关系,并充分利用提取的特征的互补优势来预测DNA蛋白结合。(2)从生物学角度来说,一个蛋白不仅仅可以和DNA结合,还有可能和RNA结合。然而我们之前的研究仅仅研究是否和DNA结合,忽略该蛋白是否与RNA结合。除此之外,DBPs和RBPs的识别不仅有助于理解细胞功能,而且是一项具有挑战性的任务。以往的研究表明,由于不同的结合域,这些蛋白质通常被单独考虑,忽略不同标签之间的关系。同时考虑到DBPs和RBPs之间结构和功能的高度相似性,DBPs预测器可以将RBPs预测为DBPs,反之亦然,这导致较高的交叉预测率。面对上述问题,我们提出一种新的深度多标签联合学习框架,可以利用多个标签和结合蛋白之间的关系。首先,设计一个多标签的变体网络来探索多尺度的上下文隐藏信息。然后,利用多标签长短期记忆对不同的绑定标签进行建模,以挖掘标签之间的潜在关系。最后,考虑不同层次的变体CNN校准的联合学习特征,以便多标签长短期记忆网络可以更好地探索它们之间的相关性。我们进行广泛的实验,将该方法与其他现有方法进行比较。此外,我们还进一步了解从我们的模型中获得的蛋白质的相关生物分析的重要性,并总结这些与疾病显著相关的结合蛋白。简言之,在DNA蛋白结合研究中,方法侧重利用多尺度CNN自动提取特征,结合多尺度网络探索多种类型特征之间的关系。而在区分核酸结合蛋白中,利用深度多标签联合学习挖掘标签之间的关系区分出DBPs和RBPs。
其他文献
数字媒体技术的日益普及,使数字信息的传输和共享更加便捷。但信息传输中存在如信息泄露、信息遭篡改等信任问题,严重威胁信息安全。因此,作为一门能够在密文信号中嵌入识别信息、无误差地提取信息并无损恢复原始信号的关键技术,密文图像可逆信息隐藏(Reversible Data Hiding in Encrypted Images,RDHEI)技术逐渐成为信息安全与多媒体处理领域的交叉研究热点。本文探究现存R
蛋白质和RNA分子的相互作用在许多细胞过程中起着重要作用,例如基因表达,转录和翻译。它们之间的相互作用需要先确定哪些蛋白质可以与RNA结合,即确定RNA结合蛋白;其次,该RNA结合蛋白的特定残基将与RNA的特定核苷酸相结合以执行其细胞功能,如果结合错误或失败,那么可能会导致生物细胞功能紊乱,进而引起各种生物遗传疾病。对于RNA-蛋白质相互作用的研究,高通量技术的全基因组预测方法虽然准确性非常高,但
专利数据是人们在生产和科研活动中发明创造的技术信息的集合,可以反映各技术领域中的最新技术动向和发展趋势,是促进自主创新和提高国家竞争能力的战略性信息资源。专利数据不仅包含技术描述文本,还包含发明人、申请人、专利引用及层次标签等信息,丰富的数据种类体现专利数据的异质特性。大多专利分析方法面临大数据学习问题,需要利用表示学习方法,实现对信息的压缩和融合。对专利数据进行表示学习,旨在研究专利文本及其多种
图像信号处理器(ISP)是相机中不可缺少的模组,它负责将来自相机传感器的原始数据转换为具有美感的图像。其中,ISP中的去马赛克算法旨在从单通道原始数据,即彩色滤光片阵列(CFA),中恢复出三通道全分辨率RGB图像。另外,在现实场景中,特别是在夜间环境中,CFA通常会被复杂的噪声所污染。因此,在去马赛克之前,通常需要对CFA进行去噪处理。去噪和去马赛克这两个模块在摄像机ISP中起着至关重要的作用,因
在计算机视觉和模式识别等领域中,图匹配无论是在理论研究还是实际应用方面都是重要的研究课题。图匹配问题旨在建立两个或多个图结构之间的节点对应关系。利用图匹配技术可以获得图数据之间的匹配关系,因此图匹配被广泛应用于图像配准、目标检测、目标跟踪,三维重建、行人重新识别等研究领域中。近年来,随着深度学习的快速发展,研究人员将深度学习与传统的图匹配问题相结合,提出了深度图匹配模型,从而可以获得更高的匹配精度
深度学习技术已经被广泛应用于图像处理和语音识别等领域,主要原因是该技术通过使用深层次的非线性结构能够学习相关数据特征,由此能得到数据深层次特征之间的联系。目前,国内外相关学者和研究人员已经将深度学习技术应用于文本处理等相关问题中,解决了传统机器学习算法存在的无法处理大量复杂数据的问题。但是,现有的字符级文本分类方法在提取关键信息能力方面还存在不足,例如下采样丢失关键信息以及数据稀疏等问题,导致实际
随着计算机技术的快速迭代,人们的日常生活也发生了革命性的变化,计算机视觉技术带给人们巨大的便利。立体匹配是一个基本的三维视觉问题,只需要两台相机即可完成对场景深度的估计,因此可直接应用于机器人、增强现实、摄影测量和视频理解等领域中。同时,热成像设备逐渐地小型化、廉价化、清晰化,相比于常见的可见光成像设备容易受到时间、环境等问题的干扰,热成像设备对光线不敏感的特性愈发受到学者们的青睐。红外热像立体匹
网络表示学习,也称为网络嵌入,旨在将网络中的节点使用低维稠密的向量进行表示,使得表示后的节点向量尽量保持网络中固有的结构相似性和属性相似性。嵌入后的节点向量可以被应用于节点分类、节点可视化等众多网络分析任务中,从而帮助人们快速方便地提取网络中潜在的重要信息,因此网络表示学习具有很重要的研究意义。目前大多数网络表示学习方法是针对固定不变的网络进行嵌入的,而对于一个不断增加新节点的网络则没有归纳表示的
优化问题是指在所有解空间中求取最佳解的问题,如旅行商问题、背包问题和资本预算问题等,较有代表性的经典优化算法,如梯度下降法、共轭梯度法、拉格朗日乘数法等,但是这些经典算法在解决复杂的高维问题和求解全局最优化问题等方面,存在诸多不足,难以得到较好的效果。近年来,群智能优化算法因其适用范围广、操控简单等优点受到了科研工作者的青睐。群智能优化算法启发于自然界中蚂蚁、蝙蝠、鱼群等生物群体行为机制,单个生物
目的 总结慢性阻塞性肺疾病(COPD)患者雾化吸入装置规范应用的最佳证据,为患者能够正确、有效使用吸入装置提供指导,为长期开展雾化吸入实践提供循证依据。方法 计算机检索国际指南图书馆(GIN)官网、新西兰指南工作组、欧洲呼吸协会、加拿大安大略注册护士协会(RNAO)官网、英国胸科协会(BTS)、中国指南网、英国国家临床医学研究所指南库(NICE)、JBI、Cochrane Library、BMJ、