基于稀疏表达分类模型的大规模蛋白质相互作用预测及应用研究

来源 :深圳大学 | 被引量 : 2次 | 上传用户:huangxiaojuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一种构成细胞的重要有机大分子,它参与着机体内所有的重要物质的组成。而蛋白质的生物功能经常是以成对的形式进行作用的,所以构建蛋白质相互作用网络已经成为生物信息领域的重要研究热点。通过收集相互作用的蛋白质信息和构建蛋白质的相互作用网络有利于理解蛋白质相互作用的机理,从而促进关于人类疾病病理研究和药物研发的发展。提出一种仅基于蛋白质序列信息的用于大规模预测蛋白质相互作用的计算模型尤为重要。特征向量抽取和分类预测是蛋白质相互作用预测模型的主要且关键的两大步骤。作为预测模型的第一部分,特征抽取方法能让原始的蛋白质序列转换成大小相等的特征向量。现存流行的特征抽取方法(如K-MER和PseAAC)往往只保留蛋白质序列的顺序信息而没有额外地考虑氨基酸的物理化学特性。另外,现存的蛋白质相互作用模型需要人为干预才能够发挥较为理想的预测性能,这导致了在训练模型的过程中往往需要大量的人力和时间进行参数调节。因此,如何提出一种人工干预少且考虑生物实验的后验信息的,快速准确的大规模预测蛋白质相互作用的计算模型是一个迫在眉睫的难题。本文针对以上述现存预测模型普遍存在的缺点,做了以下几方面的工作:一方面,本文提出的预测模型使用三种不同的特征抽取的方法来考虑了除序列以外的蛋白质信息。这三种特征抽取的方法分别是离散余弦变换(Discrete Cosine Transformation,DCT),小波变换(Wavelet Transform,WT)和全局编码(Global encoding,GE)。通过与现存的蛋白质序列特征算子的对比实验,我们可以发现本文提出的蛋白质序列特征表达方法有着出众的表达性能。另一方面,为了更好了结合本文提出的特征抽取方法,本模型采用了加权稀疏表达分类器来实现样本分类的功能。由于本文提出的特征抽取方法采用了图像分类领域中比较流行的特征算子或者参考其相关原理概念,所以最终采用了一种该领域出名的分类器——基于稀疏表达的加权分类器(weighted sparse representation based classifier,WSRC)。通过与最先进的机器学习分类器,支持向量机的对比实验,我们可以发现基于稀疏表达的加权分类器很好的与本文提出的特征抽取方法结合一起,并具有优越的预测性能。最终,本文通过两种集成学习的方法把三种基于蛋白质序列的特征抽取向量结合一起。这两种集成学习的方法分别是投票策略预测和基于残差合并预测。本文将提出的集成模型被应用于三个现存流行的数据集,并对实验结果进行研究分析、对比。通过与其他蛋白质序列特征抽取方法,机器学习分类器和已经提出的其他预测模型的性能比较,结果证明本文提出的蛋白质相互作用预测模型有着出众的预测性能,能够广泛地应用于蛋白质相互作用预测问题中。
其他文献
预防涉氨制冷企业安全生产风险是X镇政府安全生产预防监管工作的中心。加强一线安全生产预防监管能力既是响应防范化解风险的号召,也是回应人民群众安居乐业的需要。作为X镇政府,如何既增强预防涉氨制冷企业安全生产风险能力,又能有效引导企业落实安全生产社会责任,这就成为一项富有现实意义的研究课题。研究政府对企业安全生产监管的论述研究相对较多,而针对从政府预防涉氨制冷企业安全生产风险角度的专项研究相对较少。因此
目的:糖氧剥夺后的内皮祖细胞中的microRNA-210-3p表达量上调,但是其对内皮祖细胞功能的影响还不明确。我们构建缺糖缺氧模型模拟卒中以探究microRNA-210-3p上调或者下调对内
渤海海冰漂移研究对经济发展、海冰灾害监测以及全球变化等方面至关重要,极轨卫星的时间分辨率低,在监测渤海海冰漂移的时效性方面存在不足。高分四号是中国第一颗静止轨道光学遥感卫星,其成像时间间隔短(20秒)和分辨率高(50米)的独特优势,为动态变化较快的海冰漂移监测提供了较好的数据支撑。本文基于“高分四号”光学遥感卫星影像开展了渤海海冰漂移监测研究,主要工作如下:(1)进行了提高海冰/海水对比度的最优G
卡车轮毂单元是一种卡车轮毂轴承,自上世纪80年代问世以来,凭借其一体化,安装方便,免维护等优点,逐渐被欧美各大卡车厂商接受,至今已有三四十年的应用历史,其先进性已得到了
内切木聚糖酶(β-1,4-内切木聚糖酶,Endoxylanase/Endo-β-xylanase,EC3.2.1.8)是木聚糖降解酶系中最关键、最重要的酶,它可将木聚糖分子从内部即β-1,4-糖苷键处将其切断。
钙钛矿锰氧化物是典型的强关联体,具有庞磁电阻,金属—绝缘转变等奇特的物理现象。与n型半导体构成的p-n异质结,不仅具有传统半导体的整流特性,还展现出了受温度,外加磁场调
木聚糖酶在造纸、饲料、能源等领域有广泛应用。本实验室从黑曲霉中筛选到GH11家族β-1,4-内切木聚糖酶XynШ(X),其稳定性较低,难以应用于工业生产。实验室将海栖热袍菌GH10
内膜系统是真核细胞区别于原核细胞的一个典型特征。内膜系统由许多细胞器组成,每一种细胞器都有各自独特的组分和功能。为了维持细胞器在功能和形态上的动态平衡,细胞器之间
冷冻、重金属、干旱等非生物胁迫是影响植物生长的重要因素,会导致植物生长不良,作物减产,甚至死亡。许多植物都会在胁迫条件下表达并积累LEA蛋白(Late embryogenesis abundan
混沌是一种确定性的非线性动力学过程。混沌系统具有良好的随机性,初值敏感性,轨道不可预测性等特性。而这些特点恰好和密码学要求的“混淆”和“扩散”相吻合。混沌映射广泛