蛋白质数据库去冗余程序的研究与开发

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：flj3156

【摘要】

：

许多生物序列数据库中都含有大量的冗余序列，这些冗余序列通常不利于对数据库的统计分析和处理，而且它们要占用更多的计算机存储和处理资源。去除这些冗余信息具有很高的实用价

【作者】

：

刘鹏飞

【机构】

：

华东师范大学

【出处】

：

华东师范大学

【发表日期】

：

2007年期

【关键词】

：

生物信息学图论蛋白质序列数据库去冗余程序改进算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

许多生物序列数据库中都含有大量的冗余序列，这些冗余序列通常不利于对数据库的统计分析和处理，而且它们要占用更多的计算机存储和处理资源。去除这些冗余信息具有很高的实用价值，不但可以减小数据库的大小提高序列搜索的速度，而且有助于对数据库的统计分析。目前存在不少蛋白质去冗余程序，它们多数采用Hobohm和Sander的算法来生成代表序列以达到去除冗余序列的目的。然而，这种算法生成的代表序列集合不是足够大的，某些非冗余的蛋白质序列也被去除了。在本文中，我们对蛋白质去冗余问题进行了深入的分析和研究，主要研究内容和取得的成果如下： 1．改进了Hobohm和Sander的算法：我们基于图论最大独立集的概念来生成非冗余序列集合，对目前存在的蛋白质去冗余程序如CD—HIT、PISCES等所采用的由Hobohm和Sander最早设计的一种首先将序列集合分成若干个簇然后取出每个簇的代表序列的算法进行了改进，使得生成了更大的非冗余代表序列集合，避免了一些非冗余的序列也被去除。 2．基于上述改进算法，开发了两个版本的FastCluster：第一个版本基于全局比对算法来确定序列之间的相似度，提供了一种从全局比对角度来去除冗余序列的程序，其缺点在于运行速度较慢，不太适合处理大规模的数据集；第二个版本采用了Blast来确定序列之间的相似度，提高了运行速度，可以在较短的时间内处理较大规模的蛋白质数据库。FastCluster的下载地址是： http://pcal.biosino.org/FastCluster.html． 3．建立了蛋白质序列数据库的无向图模型，并开发了相应的程序BlastCuller：一个蛋白质序列集合可以看作是一个无向图，序列对应图中的顶点，如果两个序列之间的相似度超过某个设定的阈值则这两个序列之间存在一条边。基于该模型开发的BlastCuller不仅具有很高的实用价值，能够处理较大规模的蛋白质序列数据库，而且为去冗余问题提供了一个有效的可扩展的程序框架，可以加入新的算法来更好地解决去冗余问题。BlastCuller的下载地址是：http://pcal．biosino.org/BlastCuller.html．测试数据证明，本文所设计的生成非冗余代表序列的改进算法具有很强的实用性，有效地避免了一些非冗余的序列也被去除，生成了更多的非冗余代表序列集合；基于无向图模型所开发的BlastCuller程序具有较好的通用型和扩展性，可以在其基础上对去冗余问题做进一步的研究。

其他文献

基于抽象语法树的重复代码检测

重构技术在软件开发和维护的过程中所起的作用日益受到人们的重视,作为减少软件中Code Smell的有效途径,重构逐渐成为软件工程研究的一个热门领域。通过重构,可以减少软件中

学位

代码重构代码坏味抽象语法树SimHash算法

校园网流量的特性分析及预测模型研究

随着网络的飞速发展，网络的规模不断扩大，网络的控制机制和行为特征也日趋复杂和难以理解。由于网络流量数据的特性实际上反映了其与承载网络之间的相互作用和影响，因此通过对网

学位

网络流量小波变换自相似Hurst参数ARMA模型

Ad hoc网络的分簇与协同路由研究

Ad hoc网络具有多跳性、无网络基础设施等特点,其节点的资源和带宽较为有限及拓扑的动态变化等特性给网络组网方式和路由协议带来了新的挑战。论文对分簇算法和路由协议做了

学位

概率度分簇协同通信路由Markov过程层次分析法Hopfield神经网络

基于USB总线的电机测试虚拟仪器的研究与实现

本文开发设计了一种基于USB2.0型单片机CY7C68013A的电机参数测试虚拟仪器分析系统。本系统由硬件系统和软件系统两部分组成,以目前使用最为广泛的一股用途鼠笼式中小型三相异步电动机为数据信号源,在系统中进行电流电压测量、频率测量、转矩测量、谐波测量、温度测量等。文中对涉及到的USB2.0通讯协议、电机参数测试理论、自动测试系统、虚拟仪器理论做了必要的阐述,对系统的硬件设计、软件设计和主要软件

学位

电机参数测试虚拟仪器USB2.0固件设计设备驱动程序

蠕虫特征分析与抑制方法研究

随着计算机技术,特别是互联网技术的迅速发展,人们在享受计算机带来各种好处的同时,也在经受着各种恶意代码(计算机病毒、网络蠕虫、特洛伊木马等)的困扰和侵害。根据CN CERT

学位

恶意代码蠕虫蠕虫抑制NDISTDI

面向对象嵌入式GUI的设计与实现

嵌入式系统的研究和开发是当前信息技术研究的热点之一。作为人机交互的图形用户界面(GUI)是嵌入式系统非常重要的组成部分。伴随着嵌入式系统的迅速发展,嵌入式GUI系统也得

学位

嵌入式图形用户界面面向对象类组件消息通信

基于流体模型和GPU加速的火焰实时仿真

自然现象的模拟是计算机图形学中十分重要的领域，其中火焰的模拟更是一个有意义且富于挑战性的课题。传统的基于粒子系统和纹理映射等方法的模拟技术难以胜任真实感要求较高的

学位

火焰燃烧流体模型体渲染GPU火焰动画仿真物理模型

基于贝叶斯网络模型的基因调控网络的构建

现代科技的发展，尤其是生物实验技术和下一代基因测序设施的发展，每天都会产生大量的生物实验数据。为了有效的分析和利用这些数据，需要构建基因调控网络，去挖掘隐藏在数据背后的

学位

基因调控网络贝叶斯模型BDE评分函数数据挖掘

基于可信最邻近分类器的文本分类的研究

直推式可信最邻近分类器(TCM-NN)是基于算法随机性理论提出的一种新的分类算法,它不仅能够判断样本的类别,还能够为每一个判断提供可信度,这对于分类机器的应用是很有意义的

学位

可信度KNN聚类文本分类

计算机高级接口实验平台的研制与开发

“计算机接口技术”是一门实践性很强的课程,实验在这门课程中占有重要的位置。但目前现有的实验设备无法完全满足当今的教学需要,为此,本文提出了一种新型的计算机接口实验

学位

计算机接口串行接口并行接口红外USB

蛋白质数据库去冗余程序的研究与开发

其他学术论文