基于序列的蛋白质及其他分子间相互作用预测方法的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:Q672855312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序等实验技术发展迅速,大量生物信息数据亟待进行有效处理。而信息与计算科学及其相关技术在交叉学科中有广泛应用,且在生物信息学中的应用日益流行。使用机器学习和数据挖掘算法对生命体中生物分子代谢调控进行预测和分析,既可以降低直接的实验耗资,也能加快分析速度和精度,提供新的问题解决途径。蛋白质是一种具有活性的生物大分子,而与蛋白质发生相互作用的分子,或与其密切相关的生物化学分子,包括DNA和RNA等生物大分子的相互作用,在细胞的新陈代谢中起重要作用。构成核酸的碱基,以及构成蛋白质中多肽的氨基酸基团都以顺序排列方式形成序列,成为研究人员用计算方法解决问题的基础。本文致力于以多尺度时频分析、稀疏表示、基于多核学习的多元信息融合的方法等手段,使用生物序列信息,实现蛋白质分子和其他分子相互作用的预测。1.本文主要关注两种计算方式:(a)本文关注于使用压缩观测与多尺度的方法实现蛋白质分子和其他分子的序列特征提取。通过实验获取到的生物信息往往存在噪声和冗余,需要进行压缩观测和多尺度的观测,去噪并充分利用数据。(b)本文还关注于对多种生物信息数据类型空间的数据进行融合。单一一种核的学习能从一个角度提取信息,进行分类和预测;而在数据量有限的情况下,使用多模态、多度量或多核方法进行学习机的建模,能最大程度地提取出有用的信息,且在多个领域已有不错的效果。2.本文完成了以下三方面的研究工作:(a)药物-靶标蛋白相互作用预测。本部分提出了一种名为DAWN的方法,通过药物子结构指纹字典对药物进行编码,同时采用多尺度离散小波变换从靶标序列抽取特征,并结合网络信息进行预测,预测结果通过支持向量机输出。DAWN方法优势在于既可在有网络信息条件下达到较高的预测效果,也能在无网络信息条件下实现预测目的。(b)蛋白质-配体结合位点预测,具体为蛋白质和DNA的结合位点预测。受之前研究者的平均块(Average Block,AB)算法启发,本部分提出名为多尺度局部平均块(MLAB)的特征提取算法。MLAB不同于基于三维结构的思路,采用的方法是从原始序列以包括全局和局部在内的多个尺度抽取进化信息,从而充分描述多个交叠连续或者不连续的相互作用模式。同时,本文结合预测的溶解接触度(PSA),使用加权稀疏表达分类器(WSDC)进行预测。(c)长非编码RNA和蛋白质相互作用的预测。本部分提出两种算法。第一种称为LPI-KTASLP。该算法使用了多元信息,生成多类型的核,通过核对齐(KTA)的方法进行核融合,并使用低秩逼近的方法降低计算强度。最后通过链预测完成结果输出。另一种称为LPI-FKLKRR,分别在核苷酸和蛋白质空间中使用了四种不同的相似度矩阵,并应用快速核学习(Fast KL)进行加权,最后的预测结果是通过核岭回归(KRR)实现的。综上,本文提出的压缩观测、多尺度观测和基于多核学习的生物分子多元信息融合方法,较全面考虑了分子相关属性及网络拓扑结构信息,且有效去除了噪声和冗余,总体实现了较满意的预测效果。
其他文献
贵金属单原子催化剂在可还原性载体上的热稳定性相对较好,但在非还原性载体上则较差。本研究选用工业上广泛应用的La-Al2O3为载体,发现单原子分散的Pt1(II)-Ox-物种是催化CO和C
聚落是人们居住、生活、休憩以及进行各种社会活动的场所,传统乡村聚落是地域文化、民俗风情、建筑艺术的载体。但是近年来随着经济发展和大规模建设,我国乡村聚落出现了普遍
微波检测技术近年来成为一种低成本的、低健康风险的医学检测系统的新兴技术。微波检测技术的优点是小型化、易于使用、健康风险低、实施成本低、操作成本低,因此该技术为功
随着导航技术、控制技术、通信技术和微电子的发展,无人机自主跟踪控制成为航空领域重要研究方向。多无人机编队可以完成单机无法完成的较大、复杂的任务,即使在复杂的环境下
自单层黑磷(又称磷烯)被发现以来,各向异性二维材料获得了研究人员的极大关注。具有不同结构和特性的各向异性二维材料不断涌现,使其在微电子、光电子、新能源、先进制造等领域
随着现代电力电子行业的飞速发展,尤其是近年来5G通讯技术的出现及新兴技术的投入使用,电力电子设备正面临着高频率、高功率转换以及高能流密度的挑战。电感器(inductor)作为电
我国一些重大民生、国防项目通常坐落在地质结构复杂的高山峡谷地区,在爆破等动态荷载作用下,基建范围内岩体裂隙的发展尤为剧烈,频次、规模也明显增多,且更具突发性,严重威
第一部分:甲状腺乳头状癌与合并桥本氏甲状腺炎的甲状腺乳头状癌临床特点分析目的:探讨单纯甲状腺乳头状癌(PTC)和合并桥本氏甲状腺炎(HT)的PTC的发病特点和区别。方法:回顾性分
硼酸酯动态纳米组装体(BDNs)是以苯硼酸衍生物和多羟基化合物单体为构筑基元,通过连续硼酸酯化反应和非共价键作用组装而形成的一种新型材料。因其具有葡萄糖、p H、活性氧等多
钒铬既是我国战略金属,也是优先控制的重金属污染物。钒铬元素的水溶液化学性质相似,其回收分离过程一直是冶金环境领域的难点。本文针对课题组已开发的以萃取分离为核心的钒