论文部分内容阅读
高通量测序等实验技术发展迅速,大量生物信息数据亟待进行有效处理。而信息与计算科学及其相关技术在交叉学科中有广泛应用,且在生物信息学中的应用日益流行。使用机器学习和数据挖掘算法对生命体中生物分子代谢调控进行预测和分析,既可以降低直接的实验耗资,也能加快分析速度和精度,提供新的问题解决途径。蛋白质是一种具有活性的生物大分子,而与蛋白质发生相互作用的分子,或与其密切相关的生物化学分子,包括DNA和RNA等生物大分子的相互作用,在细胞的新陈代谢中起重要作用。构成核酸的碱基,以及构成蛋白质中多肽的氨基酸基团都以顺序排列方式形成序列,成为研究人员用计算方法解决问题的基础。本文致力于以多尺度时频分析、稀疏表示、基于多核学习的多元信息融合的方法等手段,使用生物序列信息,实现蛋白质分子和其他分子相互作用的预测。1.本文主要关注两种计算方式:(a)本文关注于使用压缩观测与多尺度的方法实现蛋白质分子和其他分子的序列特征提取。通过实验获取到的生物信息往往存在噪声和冗余,需要进行压缩观测和多尺度的观测,去噪并充分利用数据。(b)本文还关注于对多种生物信息数据类型空间的数据进行融合。单一一种核的学习能从一个角度提取信息,进行分类和预测;而在数据量有限的情况下,使用多模态、多度量或多核方法进行学习机的建模,能最大程度地提取出有用的信息,且在多个领域已有不错的效果。2.本文完成了以下三方面的研究工作:(a)药物-靶标蛋白相互作用预测。本部分提出了一种名为DAWN的方法,通过药物子结构指纹字典对药物进行编码,同时采用多尺度离散小波变换从靶标序列抽取特征,并结合网络信息进行预测,预测结果通过支持向量机输出。DAWN方法优势在于既可在有网络信息条件下达到较高的预测效果,也能在无网络信息条件下实现预测目的。(b)蛋白质-配体结合位点预测,具体为蛋白质和DNA的结合位点预测。受之前研究者的平均块(Average Block,AB)算法启发,本部分提出名为多尺度局部平均块(MLAB)的特征提取算法。MLAB不同于基于三维结构的思路,采用的方法是从原始序列以包括全局和局部在内的多个尺度抽取进化信息,从而充分描述多个交叠连续或者不连续的相互作用模式。同时,本文结合预测的溶解接触度(PSA),使用加权稀疏表达分类器(WSDC)进行预测。(c)长非编码RNA和蛋白质相互作用的预测。本部分提出两种算法。第一种称为LPI-KTASLP。该算法使用了多元信息,生成多类型的核,通过核对齐(KTA)的方法进行核融合,并使用低秩逼近的方法降低计算强度。最后通过链预测完成结果输出。另一种称为LPI-FKLKRR,分别在核苷酸和蛋白质空间中使用了四种不同的相似度矩阵,并应用快速核学习(Fast KL)进行加权,最后的预测结果是通过核岭回归(KRR)实现的。综上,本文提出的压缩观测、多尺度观测和基于多核学习的生物分子多元信息融合方法,较全面考虑了分子相关属性及网络拓扑结构信息,且有效去除了噪声和冗余,总体实现了较满意的预测效果。