论文部分内容阅读
随着基因组学和蛋白组学的出现,生物序列的图形表示发展到定量的数值特征,目前已经成为生物信息学的一个重要研究课题。论文给出DNA和蛋白质序列的可视化谱型图表示、数学描述模型,并在相似性分析和进化树的构造等方面进行了研究。 (1)依据核苷酸的分类,给出了一种DNA序列的谱型图表示,能反映核苷酸序列的功能和结构信息。然后计算谱型图振幅的频率作为描述子,并给出计算描述子的理论值的数学表达式,运用这些描述子对DNA序列进行相似性比较。11个物种的β-球蛋白基因全编码序列和24个冠状病毒基因组的相似性分析结果展示了方法的有效性。 (2)根据氨基酸的亲疏水性模式,提出了一种蛋白质的谱型图表示。并提取振幅的频率作为描述子应用于20个物种的线粒体蛋白质组序列,分析序列的差异性并构建进化树,结果与已知的进化信息一致。该方法适用于长的蛋白质序列,而且运算复杂度较低。此外9个物种的13个蛋白质序列的振幅频率的x2值以及相关系数矩阵也被获得来比较物种的相似性。 (3)基于蛋白质序列的谱型图表示,提取序列特征向量,结合20种氨基酸在序列中的组分构成新的特征向量,由此每条蛋白质序列可以由一个特征向量表示。运用支持向量机作为工具,对三个凋亡蛋白质序列数据集进行分类预测,结果显示该算法具有较高的准确率。 本文利用序列的谱型图表示给出生物序列的一种信息描述方法,提出的模型涉及了核苷酸和氨基酸的几种重要理化性质,兼顾了生物序列局部特征与整体特征信息的提取。不仅应用于生物序列的相似性分析,还应用于蛋白质的亚细胞定位预测。