只利用序列信息预测核苷酸结合蛋白的深度学习模型研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:yjf11230301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA、RNA结合蛋白在转录、DNA复制、选择性剪贴、RNA编辑及甲基化等多种生物功能中发挥非常重要的作用,从氨基酸序列预测这些蛋白的功能成为基因组功能注释领域的重要挑战之一。随着高通量技术的应用,蛋白质数据在公共数据库上被挖掘出来的越来越多,越来越多的学者和科研机构致力于从这些海量的数据中进行知识挖掘,从而去探索和揭开生命的意义。近年来,许多统计学方法和机器学习方法被提出来去预测一条蛋白质序列是否能与DNA、RNA结合,传统的预测方法往往从序列中提取氨基酸的理化特性作为初始特征,忽略了motif及motif之间的位置信息,同时由于训练数据规模小、噪声大,导致预测的精度及可信度降低。本文的主要工作如下:(1)本文首先分析了以往的对于蛋白质序列的特征提取方法,其中包括提取理化特性、n-gram、将氨基酸按照理化特性分类之后的n-gram、n-gram结合理化特性、基于理化的自协方差方法等。并将以上的特征提取方法提取后的特征放入支持向量机、逻辑回归等方法中进行实验。(2)本文提出了一种从序列预测RNA结合蛋白的深度学习模型。该模型利用两阶段卷积神经网络探测蛋白质序列的功能域,利用长短期记忆网络获得序列的定长特征表示。预测算法中所用到的特征均是通过“学习”自动获得,克服了传统机器学习中特征选择过程过多的人工干预。实验结果表明模型在处理大规模序列数据时具有明显的优势。
其他文献
面对日益加剧的环境污染和能源短缺问题,各国就走可持续发展道路达成一致意见,作为全球第二大经济体,中国实现低碳发展对全球生态环境具有重要意义。物流产业作为我国的朝阳产业,发展伴随着大量的能源消耗和碳排放,所以,物流产业实现节能减排,对中国低碳发展具有重要意义。现有的研究主要集中在物流效率方向,缺乏物流产业能源消耗和污染排放的研究。因此,本文以广东省为例,对物流产业节能减排问题进行如下研究:首先,通过
通过对典型西部传统工业城市兰州的规划实践,笔者发现此类城市具有国家产业基地和区域中心职能的双重发展动力。但是在过去几十年里,国家政策东移、产业变迁以及西部区域经济
鉴于企业内外部环境的不断动态变化、市场竞争激烈的不断加剧以及面对商业环境挑战的多样化,现代组织急需寻找解决措施来保持组织的核心竞争优势。组织内部成员作为组织发展
近几十年来,特殊润湿性材料由于其独特的性能和广阔的应用前景已受到了国内外研究学者们极大的关注。其中,决定材料表面润湿性的两个主要因素分别为自由能和粗糙度。通过改变
高效氟吡甲禾灵(haloxyfop-R-methyl)因在农业中广泛使用导致对环境的污染和生态毒性,因此,分离筛选能降解高效氟吡甲禾灵的菌株并研究其降解机制具有非常重要的理论意义和应
烯基砜化合物同时具有C=C双键和砜基两种官能团,能够参与多种类型的化学反应:砜基是一个强吸电子基团,可以活化与之直接相连的双键,使其更加缺电子,从而可以与有机金属试剂、
税收法定原则直接影响着税收立法的根本方向,厘清税收立法权的纵向配置是落实税收法定原则必要的前置问题,地方财政适度自主的价值追求为地方税收立法权的存在提供了理论基础。2015年修订的《立法法》明确了税收法定原则,对有关税收立法事项进行了相对的法律保留,然而地方是否享有税收立法权在该法中却没有给出明确的规定,通过观察我国的税收立法实践,可发现地方税收立法权以法条授权立法的模式存在着。地方税收立法权在税
华北鲁西地区位于华北平原中东部,东界为沂沭断裂带(郯庐断裂山东段),西界为聊城-兰考断裂带,北界为齐河-广饶断裂,南界为丰沛断裂,总体形态呈不规则的圆弧形。鲁西地区由于
锌合金拥有价格便宜,成型容易,熔化能耗低,环境污染小,耐腐蚀等优点,具有很强的市场竞争力,可以代替用于日常装潢、装饰、家具、五金等领域的铜合金。本文采用的锌合金是基于
噁唑类杂环化合物广泛存在于天然产物中,而且其在药物、荧光材料、香料等领域有着重要的应用价值。合成噁唑常用方法包括酸促进的α-酰胺基酮脱水环化反应,噁唑啉的氧化反应,