生物序列模式自动识别方法的研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:tinavalwell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物科学技术和计算机科学技术的迅猛发展,生物信息学已经成为一门崭新的学科而悄然兴起并日益发展.在生物信息学中,序列分析,即从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息,是一项重要的研究课题,对这个问题的研究具有重要的理论意义和实用价值.生物序列模式的自动识别就属于序列分析的范畴,主要包括两个方面的内容,一是如何从一组相关的序列中识别出其共同的模式,二是根据某个已识别的模式,在新序列中查找该模式,从而对新序列进行特征识别与功能预测.在该文中,我们主要研究的是第二个方面.该文首先介绍了生物序列和模式识别的相关概念,给出了生物序列和模式的表示方法;为了用传统的计算机方法解决复杂的生物问题,作者讨论了三种不同的模式识别的算法,分别为基于KMP字符串匹配的算法,基于自动机的方法和基于上下文无关文法的方法.第一种方法先将用正规表达式表示的模式串转换为若干简单字符串,再利用KMP算法进行模式识别.在基于自动机的方法中,模式串仍旧采用正规表达式的形式,作者研究了两种自动机的实现方法,一种通过编程构造模式对应的自动机,另一种利用flex工具自动实现.第三种方法采用上下文无关文法的形式来表示模式串,并利用Bison工具实现.对这三种算法,作者分别做了算法分析和比较.最后,简要介绍了如何从多个序列中识别模式的相关知识,并对今后的工作做了展望.
其他文献
分布式计算是把一个需要进行大量计算的工程任务分割成许多小规模的任务模块,分配给网络中的多台计算机分别计算,由网络中的各个计算节点进行任务模块间的相互通信,协同完成
在教育信息化过程中,教育资源库建设得到越来越多的重视和投入.以多媒体素材库为基础的教育资源库是实现教育信息化的基础.基于教育资源媒体多样性和结构多样化,教育资源库实
随着Internet的飞速发展与web技术的日益成熟,大量科技文献、技术报告等文档资源摒弃了陈旧的纸笔和印刷体媒介,以数字化的形式出现在网络与数据库之中.如何合理有效地存储、
目前,企业计算领域正在出现一种新的研究热点,就是云计算。这种计算模式允许用户根据自己的需要获取计算资源。从而当大量的请求突然到来时,企业能够良好地处理并且做到按需
文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。我们可获取的大部分信息是存在于文本数据中的。从大量的信息中有效地获取有用信息要比获取数据本身更为重要。
“智能化农业信息系统集成开发平台”课题属于国家高技术研究发展计划(863计划),课题开展以来一直面向农业信息化领域,该领域的研究一直是农业科技革命的先导。另外,在基于组件的
无线感知反应网络作为物联网的基础网络,是由大量具有数据采集、处理、无线通信能力的微型低功耗传感器节点及反应节点通过多跳通信方式组成的网络系统。随着无线感知反应网
随着各大企业数据集中及网络技术的不断发展,信息量越来越庞大,而从数据库管理系统本身的应用来讲,随着数据量日益增大,即使运行在性能极高的大型主机上,在处理大量并发用户
多Agent系统(Multi-Agent System,MAS)是分布式人工智能重要的研究领域,多Agent系统协商是多Agent系统的核心研究内容之一.该文结合我们承担的国防预研项目"分布式专家系统环
近年来,随着计算机技术、信息技术和系统技术的飞速发展,计算机仿真的应用领域不断拓宽,国民经济发展特别是军事需求的强大推动,促使计算机仿真在理论和实践两方面都走上了快速发