生物序列的谱图形表示及其应用

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:kuaiyu001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组学和蛋白组学的出现,生物序列的图形表示发展到定量的数值特征,目前已经成为生物信息学的一个重要研究课题。论文给出DNA和蛋白质序列的可视化谱型图表示、数学描述模型,并在相似性分析和进化树的构造等方面进行了研究。  (1)依据核苷酸的分类,给出了一种DNA序列的谱型图表示,能反映核苷酸序列的功能和结构信息。然后计算谱型图振幅的频率作为描述子,并给出计算描述子的理论值的数学表达式,运用这些描述子对DNA序列进行相似性比较。11个物种的β-球蛋白基因全编码序列和24个冠状病毒基因组的相似性分析结果展示了方法的有效性。  (2)根据氨基酸的亲疏水性模式,提出了一种蛋白质的谱型图表示。并提取振幅的频率作为描述子应用于20个物种的线粒体蛋白质组序列,分析序列的差异性并构建进化树,结果与已知的进化信息一致。该方法适用于长的蛋白质序列,而且运算复杂度较低。此外9个物种的13个蛋白质序列的振幅频率的x2值以及相关系数矩阵也被获得来比较物种的相似性。  (3)基于蛋白质序列的谱型图表示,提取序列特征向量,结合20种氨基酸在序列中的组分构成新的特征向量,由此每条蛋白质序列可以由一个特征向量表示。运用支持向量机作为工具,对三个凋亡蛋白质序列数据集进行分类预测,结果显示该算法具有较高的准确率。  本文利用序列的谱型图表示给出生物序列的一种信息描述方法,提出的模型涉及了核苷酸和氨基酸的几种重要理化性质,兼顾了生物序列局部特征与整体特征信息的提取。不仅应用于生物序列的相似性分析,还应用于蛋白质的亚细胞定位预测。
其他文献
本文根据权函数K的性质,得到了K-Carleson测度的积分性质和积分估计。我们将这些结论应用到文中构造的保持K-Carleson测度不变性的积分算子上,证明了K-Carleson测度的一个新刻
由于模糊集的隶属函数具有不确定性,因此用模糊集的熵来度量模糊集的不确定性程度,用两个模糊集的相似度来度量模糊集间的相似程度。模糊集的熵和相似度在多属性决策、模式识别和医疗诊断等方面有很多应用。本文针对直觉模糊集的熵存在的缺陷,将模糊集的区间熵的方法加以推广,提出了直觉模糊集和区间直觉模糊集的区间熵与区间相似度的概念,讨论了区间熵和区间相似度之间的相互转化关系以及它们在模糊多属性决策中的应用问题。本
学位
本文介绍下一代移动数据网络研究开发课题,即WLAN和蜂窝数据网紧耦合和松耦合两种融合方式;利用GSM基础设施和漫游协议,以WLAN接入技术结合GSM用户管理和计费机理,构成公众无
期刊
摘 要:随着淡水资源日益紧缺,合理利用和保护地下水资源逐渐得到社会的广泛关注。有机污染物对地下水资源的污染已成为当前地下水污染防治与保护的焦点问题。随着工农业的发展,越来越多的有机化学污染物进入自然环境,这些有机污染物随着地表径流流入渗到地下水环境中,对地下水系统造成污染。地下水是人类的主要饮用水来源之一,水中的有机污染直接或间接对人类健康造成严重危害。研究有机污染物在地下水环境中迁移转化具有重要
压缩感知是近年来国际上应用数学领域极为热门的研究前沿.它是一种新的采样方式:稀疏信号可以通过较少的随机测量恢复.实例表明目标信号往往是在某组基或框架表示下稀疏.经典
大豆油酸脱氢酶(FAD2-1B)基因是种子特异表达基因,利用PCR方法从大豆基因组DNA中分离FAD2-1B基因的启动子片段,命名为FP。PLACE在线启动子预测工具分析表明:序列中含有多种典
一    1958年是“大跃进”最轰轰烈烈的一年。首都为迎接建国十周年大庆,在全市大张旗鼓地兴建了十大建筑。打头炮的是十三陵水库。上自国家主席,下至一般百姓,凡能有幸参加劳动的,莫不你追我赶。我当年30多岁,年富力强,是高教部派去水库劳动的第三批突击队员,常年坐办公室的我,经过几天的艰苦磨练,居然能挑起百斤沙子,行走如飞。工地上竞赛高潮迭起,即使再缺乏热情的人,到此场合也不免会激动起来。紧张的强劳
环上典型群的结构是代数K1-理论和典型群研究的一个重要课题.本文主要利用形式理想研究了交换环上二次型群的“三明治定理”及Banach代数上二次型群的“广义三明治定理”,最
三维网格模型球体逼近和四面体化算法是计算机图形学中的基础算法,可以为虚拟现实仿真技术中模型逼近、碰撞检测、模型分割、有限元分析等预处理提供一种很好的解决方法,在计算