基于数据挖掘技术的蛋白质功能预测研究

来源 :上海大学 | 被引量 : 7次 | 上传用户:z492141756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类进入后基因组时代,以蛋白质组为研究对象的蛋白质组学越来越受到关注并且得到了迅速的发展。蛋白质是细胞的重要组成部分,是生命活动的执行者。蛋白质在细胞中有着十分重要的功能,包括组成器官、催化生化反应、接受与传递细胞信号、维护细胞环境等。然而,蛋白质的功能注释目前仍不完整,尤其对于高等生物有相当一部分蛋白质的功能是不明确的。用传统的实验方法去确定蛋白质的功能周期长、代价高昂,而且无法从蛋白质组这一整体层面去考虑。新兴的高通量技术产生了海量的蛋白质组学数据,使得用计算的方法来研究蛋白质的功能成为可能。本文基于数据挖掘技术,利用了高通量技术产生的大量蛋白质表达质谱数据、蛋白质氨基酸序列、蛋白质相互作用等蛋白质组学数据,针对蛋白质的功能预测这一问题进行了深入研究,具体内容如下:1)构建了一个崭新的禾谷镰孢菌(Fusarium graminearum)蛋白质亚细胞定位(subcellular localizations)预测模型FGsub。我们收集并整理了一个非冗余的真菌亚细胞定位信息数据集。一方面,基于蛋白质的氨基酸序列信息,通过特征提取、特征选择,使用支持向量机,结合多种特征向量,构建了一个能够预测禾谷镰孢菌蛋白质亚细胞位置的集成分类器。另一方面,用BLAST序列比对在数据集与禾谷镰孢菌蛋白质之间来查找同源蛋白,利用同源蛋白的信息对禾谷镰孢菌蛋白质亚细胞位置进行预测。对于数据不平衡的处理,我们还提出了一种新的平衡算法。该模型基于蛋白质的氨基酸序列使用了数据挖掘的多种技术对禾谷镰孢菌蛋白质亚细胞定位进行了精确的预测,丰富了禾谷镰孢菌蛋白质的功能注释,并为研究禾谷镰孢菌作为病原真菌的侵染机制提供了必要和可靠的信息。2)提出了一种预测蛋白质谷胱甘肽化(Protein S-Glutathionylation)位点的新颖模型。针对蛋白质翻译后修饰谷胱甘肽化的预测,首先,我们通过文本挖掘的方法建立了一个蛋白质谷胱甘肽化数据库。然后,我们基于谷胱甘肽化位点两侧的氨基酸序列信息,通过特征提取、特征选择,使用机器学习的方法构建了预测蛋白质谷胱甘肽化位点的模型。另外,我们从蛋白质的结构信息出发,利用了统计的方法对蛋白质谷胱甘肽化的机制进行了讨论。该模型可以对蛋白质谷胱甘肽化位点进行有效预测。该预测模型还能够筛选出关于蛋白质谷胱甘肽化位点的重要特征,这些特征为我们研究蛋白质谷胱甘肽化的发生和调控机制提供了有用的信息。3)提出了一种新的蛋白质磷酸化(Protein phosphorylation)网络构建模型。基于蛋白质表达数据、蛋白质磷酸化表达数据、蛋白质相互作用数据和已有的先验信息,提出了一种蛋白质磷酸化底物与磷酸激酶的全新概率模型。我们先构建了一个总体的磷酸化网络,然后根据蛋白质表达的组织特异性分别构建了人体三个组织的特异性磷酸化网络并筛选出了组织特异性的磷酸化关系。我们还对三个组织特异性磷酸化网络的功能进行验证,结果表明这些网络可以反映对应组织特有的生物功能,这也证明了我们构建的组织特异性磷酸化网络有相当的可靠性和生物意义。
其他文献
古往今来的文人雅士总是对四时山水的创作情有独钟,正所谓“万物静观皆自得,四时佳兴与人同”,一语道破了前人对生命的透彻理解与深刻感悟。在四时山水作品中,雪景山水是一个较为
随着国际贸易的迅速发展和资本市场的国际化,会计准则国际化已成为世界各国的共同追求。会计准则国际化在实质上是一场利益之争,我们必须在全薅推进会计准则国际化的同时,积极采
本文探讨了人工智能作为一种传播技术,在技术扩散过程中受到哪些关键要素的影响。在技术本身的创新扩散阶段,技术占绝对主导的地位,在技术影响的社会扩散阶段,社会人文因素的
从斯坦纳提出的阐释学翻译观出发,研究诗歌翻译中的创造性叛逆现象,并以加里.斯奈德翻译的中国唐代诗人寒山的诗歌为例,分析了诗歌如何创造性地进行翻译以及创造性叛逆的具体
终身教育理念贯穿澳大利亚职业教育,通过分析澳大利亚终身教育理念下职业教育的全员性、全面性、全程性、开放性、灵活性,结合我国现实情况提出相应的建议。
【正】者各方锐意提倡职业教育.顾实施时每感困难.夷考其敌.则课程不适.亦一要端.无论沿袭部章.抑憑藉已意.其未易尽合需要一也.职业教育界同人既已察其结.谋所以定之.十一年
2010年以来国家对于造林面积一亩及以上的造林主体给予一定金额的造林补贴,以期提高农户造林的积极性,促进森林可持续发展。那么,当前的造林补贴政策是否发挥其应有的作用?造林补贴政策的实施究竟是否提高了农户造林的积极性?对不同类型的农户的影响是否存在差异?这些问题尚需深入了解与探究。本文从影响农户生产经营行为的因素、国内外学者就农林业领域的补贴政策展开的研究、补贴政策对农户生产经营行为影响的研究3个方
利用改进的QuEChERS前处理方法提取鱼肉中依诺沙星(EO)、诺氟沙星(NRF)、盐酸环丙沙星(CPFHCl)和恩诺沙星(ERF)4种氟喹诺酮类药物。采用90%乙腈酸溶液作为提取剂,结合分散固
本文以真实经济周期理论和熊彼特创新周期理论等为依据,认为改革以来中国经济经历了以技术冲击和创新为基础的4个10年左右中周期,两个建筑周期。正是技术冲击和产业结构优化升
对疾病预防控制中心传统及新型电子信息系统后勤物资管理模式进行比较。信息化管理增强了疾病预防控制中心后勤服务宏观调控能力,规范财物流通秩序,降低物资消耗成本,提供准