一个有保障的马氏相似性学习框架及其在生物序列分析中的应用

论文部分内容阅读

生物序列分析是生物信息学的重要组成部分,其中生物序列比对更是分析和预测序列结构、功能和遗传信息的重要技术手段。生物序列分析技术主要分为比对方法和非比对方法。比对方法虽然有不错的比对效果,但是其算法复杂度高,使得其效率一直为人们所诟病。非比对方法一般指的是采用统计方法对生物序列进行数据统计分析,包括著名的k-word类方法。非比对方法一般分为两步进行:构建生物序列数字特征向量和选择相似度量(距离)。传统的非比对方法大多从序列的数字特征出发,通过改进其数字特征对序列的表示能力,以求达到更好的生物序列比对效果,而没有给予相似性度量(距离)以足够的重视。这类非比对方法大多采用传统的距离作为相似性度量,如欧式距离、马氏距离、信息熵、相对熵、K-L散度等。这些距离尺度都具有相似性度量的性质,然而其本身不具备数据挖掘的能力,并不能对每一个数据集进行“量身定制”。然而,随着机器学习出现,使得对数据进行深度挖掘和“量身定制”成为可能。本研究包括两部分:首先通过对密码子的坐标定位,由密码子与氨基酸的关系,实现对蛋白质序列的数值化,构建了蛋白质的三维图形表示,并通过提取和综合组成蛋白质序列的20种氨基酸的位置、数量、分布等信息构成一个新的40维蛋白质序列数字特征向量,并通过对9个物种ND5的相似性分析发现本文提出的方法得出的相似性结果与事实相符,并且与Clustal W的结果具有很好的一致性。其次,我们从相似度量这一角度出发,以求克服传统相似度量的不足之处,引进机器学习技术,以“好”相似函数学习理论为基础,通过结合支持向量机,提出一个新的有保障的相似性学习算法。在第一部分构建的数字特征的基础上,结合该数字特征和相式性学习框架应用于生物序列相似性分析中。并将这一算法进行推广和一般化,使之能应用于更多领域。通过选择各种具有代表性的数据集和算法对我们提出的蛋白质序列数字特征和相似性学习算法进行横向和纵向多方面实例分析,总结得出以下几点:1.本文提出的数字特征简单易懂、效率快。2.较之于一般的k-word数值特征,本文提出的数字特征对蛋白质序列的表达更加准确有效;3.本文提出的相似性学习算法同时提高了生物序列比对的精确度和稳定性;4.即使是给定一个非常粗糙的数字特征表示,通过GMSL也能得到一个理想的分类结果;5.在其它同类型算法基本失效的情况下,本文提出的数字特征和相似性学习算法的结合也能得到一个较理想的比对效果;6.GMSL较之于其它算法更优,主要归功于其建立在一个坚实的数学基础上,它保证了尽可能小的误差。

其他学术论文