蛋白质序列的图形表示与特征提取

来源 :山东大学 | 被引量 : 0次 | 上传用户:linebarrel2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的发展,各种生物数据库中的蛋白质序列数量呈爆炸式增长。这些新测定的蛋白质序列迫切需要我们开发新的算法来比较它们与已知蛋白家族序列的相似性,进而预测它们的结构和功能。  鉴于传统的序列比对算法自身存在的一些缺陷,目前,通过开发非比对算法来实现蛋白质序列之间的相似性比较已成为生物信息学中的一个热点问题。蛋白质序列的图形表示作为一种非序列比对的方法,不仅可以实现蛋白质序列的可视化,还可以为蛋白质序列提供有效的定量描述符,所以受到了众多学者的关注。本论文主要针对蛋白质序列的图形表示与特征提取方法进行了研究。主要的工作有以下几个方面:  (1)本文基于20种氨基酸的五字符模型提出了一种新的蛋白质序列3D图形表示方法。该方法先通过两个映射将五个代表字符及其字符对分别映射到正圆锥的底面圆上,然后将蛋白质序列转化为一条五字符序列,再通过一个迭代函数将该序列中的字符依次映射为3D空间中的点,连接相邻各点得到蛋白质序列对应的图曲线,最后通过图曲线对应的L/L矩阵提取序列特征。该方法的创新之处在于将蛋白质序列中氨基酸对的累积频率信息融入到了图形表示过程中。在两个数据集上的实验表明我们的方法是有效的。  (2)本文基于从AAindex数据库选取的158种氨基酸理化性质提出了一种新的蛋白质序列图形表示策略。我们先从AAindex数据库中选取了158种氨基酸理化性质,然后根据每种理化性质将20种氨基酸排布在正圆锥底面圆周上。仿照(1)中的方法生成蛋白质序列对应的图曲线,并提取序列特征。根据氨基酸的158种理化性质,该方法将一条蛋白质序列对应到158条结构不同的图曲线,通过这些图曲线我们可以获取更多的蛋白质序列信息。由于特征向量的维数较高,我们用PCA对特征矩阵降维,并把降维后的向量作为蛋白质序列特征用来对其进行相似性分析。在四个蛋白质数据集上的实验充分表明了该方法的有效性。  (3)本文基于蛋白质序列的CGR曲线给出了一种新的特征提取方法。该方法在得到传统的CGR曲线后,根据四个象限把单位圆分割成四个子块,计算CGR曲线落在各个子块中所有点两两之间的距离,并将四个子块对应距离矩阵的主特征值作为该CGR曲线的数字特征。与传统特征提取方法相比,我们的方法考虑了每个子块内点的分布信息,可以更细致的刻画CGR曲线。另外,该方法采用了(2)中策略,根据从AAindex数据库选取的158种理化性质确定20种氨基酸在单位圆周上的排布。在该方法中,我们同样使用PCA对特征矩阵进行了降维处理。在五个蛋白质数据集上的实验充分表明了该方法的有效性。
其他文献
供应链是一个典型的动态系统,如何协调系统中各成员间的利益关系,寻找供应链网络的最终均衡状态,是供应链管理中的一个重要问题.本文先是构建了两个供应链网络均衡模型:考虑承诺交货期供应链网络均衡模型和多期网购供应链网络均衡模型.然后给出了其求解算法,并通过数值算例证实了算法的计算效率和可操作性,同时也研究了个别因素的变化对供应链的影响.本文主要研究成果如下:1.本文考虑到随着市场竞争的日益激烈,现代企业
Finland著名的数学家R.Nevanlinna在亚纯函数值分布理论的建立过程中有着极大的贡献。二十世纪二十年代,他注意到可以很形象、自然地刻画亚纯函数增长性的特征函数,以及非常重
图像融合是图像处理中的一项关键技术,而多分辨率分析方法则是处理图像融合时的常用方法,在图像融合当中发挥着重要的作用。本文重点研究的内容是基于多分辨率分析(MRA, Multi-R
由于光学干涉测量技术具有非接触、高灵敏度和全场测量的特点,已经被广泛应用于科学研究和工程实践中。在光学干涉成像过程中形成的条纹模式包含了被测物体形变前后的相位差,通
本文研究了Hilbert空间中无界分块算子矩阵的二次数值域,谱包含关系,可逆性和补问题.  首先,我们给出了有界分块算子矩阵的二次数值域的基本性质.例如,对于分块算子矩阵A和所有
压缩感知是一种新颖的信号处理理论.它突破了传统Nyquis/Shannon采样理论对采样的限制,以信号的稀疏性或可压缩性为基础,实现了对信号的高效获取和精确重构.具有很强的应用背
本文研究了全空间RN上的渐近线性Schr(?)dinger方程的正解、基态解以及全空间R3上的渐近线性Schr(?)dinger-Kirchhoff方程解的存在性和非存在性.在第一章中,我们介绍了全空间上两类椭圆型方程的研究背景.在第二章中,我们研究了全空间RN上的渐近线性Schr(?)dinger方程:其中N≥3,u:RN→R是一个正函数,当t→0和t →+∞时,f(x,t)分别趋向于p(x)和
学位
机场作为一个可进行独立运营的服务型机构,它基本价值是持续保持对旅客的吸引力。全球旅客量的持续上升和航空业的飞速发展,使机场之间吸引旅客的竞争随之加剧。机场要想在激
<正>经常逛宜家的朋友,对宜家目录手册应该不陌生。这本册子,看上去宛如一本装帧精美的书,翻开是翔实的产品图文介绍。据悉,宜家每年都会花费大量心血制作这本手册,而该手册
本文主要研宄了多孔介质中非饱和流动问题的多尺度算法,误差分析,数值模拟。 本文的内容安排如下:  第一章节首先介绍了多孔介质中非饱和流动问题的物理背景和问题的研