调控蛋白质相分离的关键氨基酸序列预测

来源 :郑州大学 | 被引量 : 0次 | 上传用户:lijinjie1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相分离是指在原本均一的环境中,某些蛋白质或者核酸分子自发聚集产生物理化学性质不同的另一相,是无膜细胞器形成的基础。正常的相分离在生物体内发挥着多种生物学功能,如转录、自噬等,而相分离异常时可能会引起一些神经性系统疾病以及肿瘤的发生。通过鉴定调控蛋白质相分离的关键氨基酸序列来探究相分离机制是该领域中重要的研究课题之一。然而,目前仍缺乏有效的工具来识别调控序列。相较于传统实验方法,生物信息学的计算方法具有成本低、运行速度快等优点,因此,开发相应的计算工具十分重要。本论文通过查阅Pub Med数据库的文献,手动收集了实验验证的调控蛋白质相分离的关键氨基酸序列,然后采用随机森林算法建模,利用TPOT包进行超参数优化,最终开发了预测工具dSCOPE并搭建相应的网页服务。此外,利用构建的预测工具对人源蛋白质组进行了一系列生物信息学分析,取得了以下研究成果。(1)数据收集及特征描述。从已发表文献中收集所有经过实验验证的调控蛋白质相分离的关键氨基酸序列并去冗余,分析其理化特征。结果发现调控序列更倾向于由极性不带电的氨基酸组成,序列复杂程度低、无序、结构类似于朊病毒样并且常裸露在外。利用步长为8长度为15的滑动窗口截取蛋白质肽段从而确定基准数据集。将经过实验验证的决定蛋白质相分离的氨基酸序列作为阳性数据,同一条蛋白质上其他区域的氨基酸序列作为阴性数据,最终获得1,737条阳性数据和3,125条阴性数据组成的人源蛋白质氨基酸序列数据作为训练数据集,379条阳性数据和1,075条阴性数据构成的酵母数据作为测试数据集。(2)预测模型的构建及评估。将人源蛋白质氨基酸序列数据作为训练集,酵母数据作为测试集,采用氨基酸组成、k-spaced氨基酸对构成、氨基酸位置特异性评分矩阵和二进制编码这四种特征提取方法,整合八种理化特性(朊病毒样序列、表面可及性、氨基酸的极性、电荷、亲疏水性、氨基酸序列是否裸露在外、序列的低复杂度和无序程度),然后构建相应的随机森林算法模型并优化参数。利用n折交叉验证和独立测试集验证来对模型性能进行评估。交叉验证结果表明,预测模型具有良好的鲁棒性,其四折、六折、八折、十折交叉验证的受试者工作特性曲线下面积(Area under curve,AUC)分别为0.8204、0.8129、0.8238、0.8213。在独立测试集中,预测模型AUC值为0.8463,优于现有预测工具。(3)dSCOPE在线工具的开发。利用Python、Java Script、PHP和HTML等编程语言,同时整合蛋白质二级结构、细胞亚定位和氨基酸理化性质等信息,搭建了一个全面的用于预测调控蛋白质相分离关键氨基酸序列的网页服务dSCOPE。(4)蛋白质组水平的预测和分析。基于dSCOPE预测软件,对人源蛋白质组进行了进一步的生物信息学分析,包括蛋白质翻译后修饰分析、功能注释、相分离蛋白与激酶和转录因子间的相互作用以及泛癌症突变分析。功能注释和翻译后修饰分析表明,相分离参与调控细胞内转录、增殖、凋亡等生理途径,而且赖氨酸修饰和磷酸化修饰会影响蛋白质相分离的发生。在泛癌症突变分析中,我们发现dSCOPE预测结果与实验验证结果一致,错义致瘤突变均在含有功能结构域的区域富集。综上所述,dSCOPE在对调控蛋白质相分离的关键氨基酸序列的预测中有着不错的表现,同时在网页服务器中实现了多种有用信息的可视化,为相分离相关研究提供了便利。
其他文献
目的电离辐射长期暴露可对放射工作人员健康造成多种损害。近年来,由于不断加强射线防护综合措施,放射工作人员辐射接触个人剂量超过卫生标准限值的情况逐渐减少。在辐射接触个人剂量低于接触限值的条件下,放射工作人员是否仍会受到损害?其健康状况变化有何特征?目前尚无定论。通过对河南省某市放射工作人员健康状况连续四年的动态观察与分析,探索低于接触限值的放射工作人员健康状况动态变化特点与分布规律,为进一步改进与完
随着装配式技术的推广与发展,装配式建造方法在国内广泛应用,装配式桥梁构件在工厂预制,在现场一般通过湿接缝对其进行连接,城市桥梁、高速桥梁越来越多的采用预制装配式的施工方法。北方城市冬季寒冷、温差较大,桥梁湿接缝处的耐久性问题较为突出,雨雪霜冻以及除冰盐的使用对其耐久性提出了更高的要求。本课题以郑栾高速公路尧栾段横向多梁体系桥梁湿接缝为研究对象,旨在增强其耐久性能,延长其服役寿命,结合实际施工情况考
我国位于世界地震多发带,高烈度区桥梁分布广泛,桥墩作为桥梁抵抗地震作用的重要构件,提高其抗震性能对桥梁结构抵抗地震作用显著。为改善地震作用下桥墩延性并提高其抗震性能,本文利用超高性能混凝土(UHPC)、高强钢筋及预应力钢筋的材料特性,将桥墩塑性铰区普通混凝土替换为UHPC,并替换普通钢筋,研究高强钢筋替换率、预应力筋替换率及箍筋强度对UHPC复合桥墩抗震性能的影响。并对某实际桥墩进行非线性时程分析
随着我国铁路建设的不断发展,铁路桥梁设计理论不断完善。但由于历史原因,不足0.5%的低配筋率混凝土重力式桥墩在我国普遍存在。本文在国内外关于低配筋率桥墩抗震研究现状的基础上,选取实际工程低配筋率重力式桥墩,根据结构相似理论设计制作缩尺模型,采用振动台地震波激励和有限元模拟相结合的方法,对比分析低配筋率重力式桥墩的抗震性能。本文主要内容如下:(1)查找研究低配筋率重力式桥墩抗震性能的期刊和论文,回顾
乙酰羟酸合酶(AHAS)是植物和微生物支链氨基酸生物合成途径中的第一个共用酶。由于在人和其它哺乳动物中并不存在这一途径,故而AHAS是一个非常有前景的除草剂和抗生素的靶点。绝大多数来自于细菌或真菌的AHAS为四聚体,由两个大亚基和两个小亚基组成,大亚基主要起催化作用,故称为催化亚基(CSU);小亚基起调节作用,称为调节亚基(RSU)。AHAS的CSU单独存在时也具有完全的催化活性。本研究以结核分枝
学位
近年来,锂离子电池成为各个供电系统中的主流设备之一,而由于便携电子设备、可弯曲、折叠设备的出现,进而对锂离子电池提出了柔性要求,开发高比容量、长循环寿命的柔性自支撑电极成为近年来研究热点。而在众多锂离子电池负极材料中,硅基负极因具备超高理论比容量(4200 m Ah g-1)一直备受研究人员关注,但硅基负极存在体积改变大(约400%)、循环稳定性差等缺点,则研究出具备高比容量、电化学循环性能稳定的
背景糖尿病是危害人类健康的全球性问题之一,其早期诊断和合理治疗对改善患者预后及减轻家庭、社会负担有深远影响。血糖监测在糖尿病的诊疗中起至关重要的作用。随着血糖监测技术的成熟,利用机器学习算法预测血糖成为研究热点之一。机器学习算法包括线性算法、非线性算法等,其中GM(1,1)模型属于非线性算法之一,具备所需样本少、操作简单、精确度良好的优势。因此本研究通过对GM(1,1)模型的血糖预测误差的影响因素
近年来,有机-无机杂化钙钛矿太阳能电池(Perovskite Solar Cells,PSCs)发展迅速,能量转换效率(Power Conversion Efficiency,PCE)已经从2009年的3.8%提高到现在25.5%。但是,由于钙钛矿光吸收层中的有机阳离子具有较强的挥发性和吸湿性,这类钙钛矿太阳能电池很难在大气环境中保持长期的稳定性,从而极大地制约了其大规模商业化应用。研究发现,用无