【摘 要】
:
DNA结合蛋白在真核和原核蛋白质组的选择性剪接、RNA编辑、甲基化和许多其他生物学功能中发挥关键作用。目前,使用深度学习网络能够对多种DNA结合蛋白一级序列做出精度较高的
论文部分内容阅读
DNA结合蛋白在真核和原核蛋白质组的选择性剪接、RNA编辑、甲基化和许多其他生物学功能中发挥关键作用。目前,使用深度学习网络能够对多种DNA结合蛋白一级序列做出精度较高的预测,但由于深度学习网络数据传递较多、不同功能层处理方式不统一等原因,很难对其训练模型和结果做出解释。我们设计了以下几个实验模块来解决这一问题:(1)简化的特征工程和序列处理模块和简单的判别器。我们使用独热编码的方式处理DNA结合蛋白的一级序列,并使用多个卷积核的一维卷积层进行第一层处理,之后将生成的结果转置后,使用一个窗口大小为1的卷积核进行卷积处理。我们对序列处理后的结果直接使用逻辑斯蒂回归进行分类,因为序列处理和分类过程完全是线性过程,所以可以直接整合前后操作,得到卷积过程中的带权求和卷积核。该模型的交叉验证准确率可以达到80.5%~86.6%,我们使用该模型找到了在DNA结合蛋白中部分氨基酸表现的相似性。(2)引入解释性子网络。我们用解释性子网络代替逻辑斯蒂回归,这是一种利用多层感知机能够在一定精度逼近任意有理函数的特性,对每个特征都引入一个子网络,来学习各特征的非线性贡献的过程。使用解释性子网络,我们得到了一些卷积核和他们的非线性贡献,并认为非线性模型能够更加快速且准确地收敛。(3)基于卷积判别的生成模型。我们设计了一种评分增长的序列生成算法来生成可以被现有的判别模型识别的序列,对生成的DNA结合蛋白一级结构序列进行评估。
其他文献
风险作为一种观念随着全球化和现代化的发展席卷全球,风险社会也成为世界的发展趋势。环境风险作为主要的风险形式之一,开始对人类社会产生重要影响。随着环境污染的日益加剧
生物基因序列分析在生物学等领域有非常重要的价值。通过多序列比对(MSA)可获得生物遗传规律等信息。通常,MSA是将一条或多条测序获得的新基因序列同已经存储于数据库中的其
木麻黄人工林可持续经营长期受到连栽障碍制约,现有研究证实,木麻黄自毒作用是引起木麻黄连栽障碍的重要因素之一。本文以福建沿海主栽的“惠安1号”木麻黄无性系为实验材料,
目的:已知慢性砷暴露与多种疾病的发生有关,如糖尿病等代谢性疾病。胰岛功能障碍是引起糖尿病的原因之一,而砷是否影响胰岛功能及其机制并不清楚。蛋白激酶R样内质网激酶(PERK
超连续谱(supercontinuum,SC)是指窄带超短激光脉冲在非线性光学介质传输过程中,通过介质的色散和非线性光学效应的共同作用,使得入射脉冲频谱展宽的光谱。超连续谱由于其空间相干性好、高亮度、宽带宽等优点被广泛应用于光学相干层析、频率梳、频率计量、空气污染监测、疾病诊断和荧光成像等诸多领域。目前,超连续谱的工作波段范围从可见光已扩展到中远红外区域,未来超连续谱光源将被广泛应用于国防和民生。
本文从损害环境公益行为的类型、环境公益损害责任归责原则、环境公益诉讼原告范围、以及环境公益诉讼性质四个角度对环境公益诉讼制度中涉及的一些焦点问题进行了研究分析。
目的:探讨间充质干细胞上清(MSC-CM)对HD暴露VSC 4.1细胞过度凋亡的抑制作用及其分子机制。材料和方法:用2到3周龄SD大鼠来提取MSC-CM。VSC 4.1细胞分为5组:Control组、HD组
目的:探讨骨髓间充质干细胞上清(MSC-CM)对2,5-己二酮(HD)染毒VSC4.1细胞过度自噬的拮抗作用及其机制。方法:取3到4周龄的SD大鼠股骨、胫骨提取MSC-CM,贴壁并纯化培养,提取上
海上油田受作业空间等限制,传统增产手段如压裂只能通过专用压裂船进行,风险大,单井作业成本高,经济效益较差。径向射流钻进技术利用高压水射流的水力破岩作用,可增加原井眼
近年来,水母暴发事件在全球范围内发生,在带来生态灾难的同时,也常导致沿海核电站冷源取水口堵塞,对核电站的安全运行造成影响;核电站附近海域水母灾害的短期预警已成为亟需