【摘 要】
:
DNA-蛋白质间的作用机制与生物体内最基本的生命活动息息相关,如基因的表达和转录、染色质形成等。这种能够与DNA相互作用的蛋白质称为DNA结合蛋白,它们对于研究疾病产生的内在机理和设计药物治疗靶点非常重要。随着后基因组时代的技术发展和高通量测序技术的实施,基于计算方法来识别DNA结合蛋白已经成为一种新的趋势。本文重点研究DNA结合蛋白预测模型中的特征工程,包括特征提取和特征选择,通过此特征工程建立
论文部分内容阅读
DNA-蛋白质间的作用机制与生物体内最基本的生命活动息息相关,如基因的表达和转录、染色质形成等。这种能够与DNA相互作用的蛋白质称为DNA结合蛋白,它们对于研究疾病产生的内在机理和设计药物治疗靶点非常重要。随着后基因组时代的技术发展和高通量测序技术的实施,基于计算方法来识别DNA结合蛋白已经成为一种新的趋势。本文重点研究DNA结合蛋白预测模型中的特征工程,包括特征提取和特征选择,通过此特征工程建立一种准确、有效的DNA结合蛋白预测模型,论文主要内容如下:(1)数据集构建:在Protein Data Bank(PDB)数据库搜索界面搜索“DNA结合蛋白”关键词并提取数据,将长度低于50个氨基酸的序列和含有“X”残基的序列删除,使用CD-HIT、BLASTCLUST软件减少序列间冗余度,构建训练数据集和测试数据集。(2)特征提取:为了充分挖掘蛋白质序列的潜在信息,从氨基酸组成、氨基酸物理化学性质和蛋白质进化信息出发,提取Pse AAC、Local_DPP、Sliding window、PSSM-DCT和PSSM400五种特征。(3)特征选择:为了最大程度的保留关键信息,去除序列间的冗余性,对特征向量进行降维处理。本文通过比较最小冗余最大相关方法、随机森林法和LASSO法,最终,随机森林方法得出的130维特征结果最优。(4)分类预测:通过10折交叉验证和XGBoost集成学习方法,在训练数据集上构造DNA结合蛋白预测模型,并在测试数据集上验证模型的结果。以准确率、敏感度、特异性、马修斯相关系数和AUC评价指标对模型的分类效率进行评价。通过与i DNA-Prot、DNA-Prot、i DNA-Prot|dis、DNAbinder方法的对比,本文提出的方法在准确率、特异性和马修斯相关系数指标上表现最好,比其他方法分别高出0.1%-19.3%、0.47%-19.5%和0.03-0.401。综合各项指标,本文所建立的预测模型性能高于PSSM-DT、i DNA-Prot方法。此外,根据特征选择后的特征子集分布图发现,基于PSSM的Local_DPP方法和PSSM400方法对识别DNA结合蛋白最重要。
其他文献
现有的阴极保护准则是按照传统的低钢级管线钢而制定的。西部管道所属的西气东输二、三线管道采用高钢级、大口径、高压力管线钢氢脆敏感性比较大,析氢过电位比较低。为了保
近年来,气候变化和人类活动导致极端水文事件频发、土壤盐分积累加剧,使得松嫩平原湿地植物面临日趋严重的淹水和盐胁迫,进而加速湿地植被的退化。为了保持盐碱化湿地的生态系统稳定及进行退化湿地的植被恢复,湿地植物对不同水文情势和盐分条件的响应规律成为了一个亟待深入研究的关键问题。对此,本研究调查分析了当前松嫩平原西部(以莫莫格保护区为例)天然菰群落的种群、群落特征及其与生境因子的关系,并在此基础上开展淹水
溶剂浸渍树脂技术结合了离子交换和溶剂萃取的优势,具有制备简便,选择性好,萃取剂利用率高,环境污染小等特点,被广泛用于金属离子的分离和回收。但溶剂浸渍树脂在制备及使用
丝绸之路是连接古代中西方经济、文化交流的纽带,不同地域的文明文化通过丝绸之路进行沟通、借鉴。随着古代丝绸之路的畅通与中西历史文化的频繁交流,西方大量图案纹样传入中
目的:探讨前路椎间植骨融合内固定术治疗不稳定型Hangman骨折的临床疗效。方法:选取自2014年7月到2019年3月收治的前路椎间植骨融合内固定手术治疗的24例不稳定型Hangman骨折患者为研究对象,通过影像学资料评价术后椎间植骨融合情况以及骨折愈合情况。术前,术后1个月及末次随访时,采用疼痛视觉模拟评分(Visual Analog Scale,VAS)、颈椎功能障碍指数量表(Neck Dis
近年来随着我国在南中国海域对珊瑚岛礁的开发力度逐渐加大,在珊瑚岛礁周围建设诸如灯塔、码头、机场、油气开采平台等设施日益增多。此类工程设施常处于远海地区,海况恶劣,周围海底地形变化剧烈,如何在诸如风暴潮等极端气候下对其进行建设和维护是一个亟待解决的问题。据学者现场观测,对全球珊瑚礁海域附近的波浪和潮汐条件进行了调查,发现世界上大约三分之一的珊瑚礁可以被认为是潮汐主导的,这意味着潮流在一些珊瑚礁海岸附
中华优秀传统文化蕴含着丰富思想道德资源。传承和弘扬中华优秀传统文化是高校思想政治理论课题中应有之义。创造性地将优秀传统文化融入高校思想政治理论课,能增强其思想性
纳米材料是一种纳米级新型材料,其在光、电、热、力学、机械等物理化学方面展现了奇特的性能,这使得纳米技术迅速地渗透到各个研究领域,并引起了国内外众多科学家的广泛关注,也成为当前最热门的研究热点。碳纳米管是最具发展潜力的纳米材料之一,其广泛应用使得在环境中出现的概率日益增加,它们对人体生理健康和生活环境的影响也越来越大。蛋白质是一种复杂的有机大分子,是构成细胞的基本物质,是生命活动的主要承担者。生物体
江海直达船凭借其独特的优势在长江航运中发挥着重要作用。目前,国家也连续出台了相关政策支持江海直达船的发展。虽然江海直达船的发展遇到了好的机遇,但是其疲劳强度评估没有参考的规范。如果参考海船规范校核疲劳,认为全寿命周期航行于海段,那么会使其结构重量增加,载货量降低,有损经济性。而且这种方法直接忽略江段和海段载荷交互作用对疲劳强度的影响。因此有必要对江海直达船的疲劳评估开展基础研究。由此,本文根据江海
目的:系统评价经口内镜下肌切开术(POEM)和球囊扩张术(PD)治疗贲门失弛缓症的有效性和安全性。方法:以贲门失迟缓、经口内镜下肌切开术、球囊扩张术、POEM、PD、peroral endo