论文部分内容阅读
一直以来,人类探索生命现象的脚步从未停歇。20世纪以来,人类对生命现象的研究逐渐深入,从生物表象型的研究进入到生物小分子领域。20世纪90年代,随着科学技术,尤其是计算机技术的飞速发展,生命科学的研究进入了新的阶段。人类基因组计划的启动和实施,开辟出大量的生物数据资源,同时也对数据的存储和处理提出了更高的要求。在这样的背景下,生物信息学这一交叉学科应运而生,它的主要特点正是运用新兴的计算机科学技术和网络技术来有效的管理分析大量的生物学数据,找出其背后隐藏的生物学规律。在生物信息学中,对生物序列进行相似性分析是一项重要任务。本文主要研究工作是围绕着生物序列的相似性分析展开,分别以DNA序列和蛋白质序列作为研究对象,提出了不同的生物序列相似性分析方法。在第二章中,区别于常见的图形化表达方式,从信号的角度,基于不同的编码方式,本章提出了两种不同的DNA序列的编码模型。在第一种编码方式下,DNA序列被映射为信号幅度为2的方波,用四种不同的信号持续时长来分别代表AGTC四种不同的碱基,以方波幅度的交替来表示碱基的更迭。第二种编码方式则借鉴CMI编码,将实际的DNA序列转化为CMI码序列。利用转化得到的信号序列可以对DNA序列进行相似性分析。通过与已有的模型进行对比发现,以信号的思想来理解DNA序列是切实可行的,本章提出的方法是有效的DNA序列相似性比较手段。第三章中以蛋白质为研究对象,提出了一种基于惯性张量的蛋白质序列分析模型。首先按照氨基酸的不同性质,将20种氨基酸映射为三维空间上不同的点。通过赋予每个点“质量”,借助惯性张量的计算,可以得到蛋白质序列之间的相似程度。本章分别采用来自哺乳动物的蛋白质序列以及来自杆状病毒的蛋白质序列说明了本章提出方法的有效性。第四章中提出了一种基于离散傅里叶变换和动态时间规整算法的蛋白质序列分析模型。首先将蛋白质字符序列映射为数值序列,将其视为由三组信号构成的信号序列。通过对序列进行离散傅里叶变换,我们能够得到氨基酸序列的功率谱,随后利用动态时间规整算法判断两个氨基酸序列的相似性。从本文的计算结果中可以发现,取自相近时间段的甲流病毒的蛋白质序列的相似性更高。通过与其它软件和论文得出的计算结果进行比较,发现使用本文中同样数据的情况下,本文提出的方法能够纠正部分目前已有的软件与其他算法中的一些错误分类。