基于Gibbs抽样的有约束多项分布模体识别算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lr78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模体识别是生物信息学的重要研究领域。它通过寻找不同序列间的相似片段来归结出这些序列片段中所蕴涵的特征模体,从而揭示生物序列数据中所蕴涵的生物学意义。最近的生物实验表明,部分模体内部各位置之间存在明显的相关性约束关系,但目前的很多算法却没有考虑模体内部的相关性约束。本文首先介绍了课题背景,阐述了本课题的研究目的及意义,介绍了一些典型的模体识别算法。然后介绍了通过假设检验判断模体内部位置间相关性约束的方法;将模体相关性约束加入到Gibbs算法之中,实现了具有位置相关约束的Gibbs算法,该算法被命名为SimiMotif。该算法通过χ2检验和Fisher精确检验的运用,实现了模体内部位置相关性约束的判定,然后使用被命名为Simi_link的一维数组来表达模体内部的相关约束关系。算法利用PFW模型以及Simi_link来共同表达模体模型,通过新的Gibbs打分函数进行模体识别过程,并且能够识别多个模体以及多个模体实例,选择与背景最具显著性差异的几个模体输出。然后本文将二维相关性约束推广到多维,提出MultMotif算法。最后将SimiMotif以及MultMotif算法和对应SimiMotif算法过程相同但是去掉相关约束部分的模体识别算法,分别进行了对Tompa et al.于05年提出的基准库以及Sandve et al.于07年提出的基准库这两个基准测试库上的测试,然后将SimiMotif以及MultMotif同已有的多种模体识别方法进行了比较。实验结果表明SimiMotif以及MultMotif算法所用的相关约束模体模型能够较好地表达模体模型,并且算法在一定程度上提高了识别的准确度,两者在Tompa etal.基准库所对比的17种方法中主要参数分别排第六以及第五位,如何进一步改进准确度并且提高算法执行效率将是一轮新的工作。
其他文献
本课题来源于上海Sybase软件公司的电子银行项目,该项目是基于web的银行间转账、汇款、结算等业务处理,由于涉及到大量的敏感数据,网络安全就成了重要的突出问题。随着网络规模
由于神经网络方法在气象预报建模时,其初始权值和阈值难以确定,需要反复训练以确定网络结构和各种参数,这又容易导致过拟合问题,严重影响网络的泛化能力。优化BP神经网络的方
近年来,Web服务逐渐成为实现系统应用跨平台的主要技术,但是随着Web服务的极大发展和广泛应用,网络上出现了很多相同或相似功能的服务,用户如何从这些功能相同或相似的服务中
随着计算机网络应用多元化的发展,传统的尽力而为服务模型已不能满足网络中大量多媒体传输的需求,追求计算机网络服务质量(QoS)已成为网络发展的趋势。QoS路由选择问题是在网
当今社会是一个信息的社会,信息可以被无限次共享,也只有共享信息才能充分发挥出信息潜在的价值。网络技术的发展,使得信息的共享变得尤为方便,尤其是近年来P2P网络的出现大
光声成像(Photoacoutic Imaging,PAI),因其独特的成像特点,已经成为生物医学成像领域的研究热点之一。光声成像采用脉冲激光照射生物组织,激光能量设定在国际安全标准的范围
随着计算机网络的不断发展,实时共享网络资源已经成为可能,但是同时也带来了海量的信息资源。为了能够从海量纷杂的文本信息中及时准确地获取有效的知识和信息,人们开始关注
本文对聚类算法和遗传算法展开了研究,并且分析了它们的优缺点。K-medoids算法容易陷入局部最优解、对初始值敏感,而遗传算法具有全局搜索的能力和隐并行性。针对这两方面的
移动AdHoc网络是无中心、自组织的多跳无线网络。在AdHoc网络中,由于移动终端的能量有限,而从硬件上电池能量的提升空间有限,使得节能问题成为移动AdHoc网络的一个研究热点。论
容侵技术作为第三代信息安全技术,已经受到越来越多领域研究者的关注。为了屏蔽失效的节点对信息系统产生的负面影响,在检测到服务失效等行为时,除了采用大数表决、门限秘密