生物序列分析算法的研究及其应用

来源 :中国科学技术大学 | 被引量 : 3次 | 上传用户:luoxuefubai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,人们获得了大量的生物学数据。在对这些生物数据进行处理和分析的过程中,涌现出了大量的数学问题。这些数学问题亟需通过有效的计算手段进行解决。   DNA和蛋白质研究是分子生物学中两项核心的研究课题,我们针对DNA和蛋白质序列分析中出现的一些数学问题进行研究。单体型是一些特定的DNA位点组成的序列。单体型分析可以帮助我们了解基因与疾病之间的关联,这在遗传疾病的研究方面具有重要意义。模体是一些保守的DNA片段,模体发现对基因转录及其调控的研究很有帮助。蛋白质的空间结构决定了它的功能,基于蛋白质序列,我们可以对蛋白质的结构进行预测,从而为病毒检测以及生物制药等研究提供帮助。本文围绕单体分型、模体发现和蛋白质结构预测等问题展开研究,主要的研究内容包括:   (1)提出一种群体数据集上的单体分型算法由于成本的限制,单体型难以通过实验手段大量获得。但是单体型可以利用基因型数据通过计算手段进行求解,其中分块-合并策略被广泛地应用于多个算法中,用以提高算法的效率。在传统的分块-合并策略中,分块是均匀的,但很多研究表明单体型具有特有的块结构,分块并不均匀。基于此我们统计不同位点间的关联强度,并使用动态规划算法设计了更合理的分块策略,利用贪心算法对相邻分块进行合并,我们将新的分块-合并策略其应用于EM单体分型算法中。   (2)提出一种家系数据集上的单体分型算法近来,通过一些新的生物实验手段,可以获得一种新类型的数据——异或基因型。基于异或基因型的单体分型成为一项新的研究课题。研究者们对群体数据集上基于异或基因型的单体分型算法做了很多研究,但基于家系数据的研究还很少。基于完美进化树模型,我们将家系上的异或基因型分型问题转化为图论中的图实现问题进行求解,家系结构为问题求解提供了更多的约束,使得问题有更大的概率获得唯一解。   (3)提出一种序列模体发现算法模体在转录因子绑定及蛋白质间相互作用中起着重要作用,对它的发现会有助于我们了解基因的功能。植入(l,d)模体发现是其中一类经典的问题,但不幸的是,这一问题是NP难解的。研究者们提出了很多算法。由于问题的NP难解性,精确算法难以在有效时间内对其进行求解。结合哈希表和剪枝策略,我们提出一种更有效的序列模体发现精确算法。   (4)提出一种蛋白质二级结构预测算法蛋白质结构的确定对我们了解蛋白质的功能至关重要。以往的蛋白质结构预测算法大多是基于序列以及数据库比较的。我们结合化学位移信息和蛋白质序列来对蛋白质的二级结构进行预测。通过NMR实验,我们可以获得蛋白质中每个氨基酸对应原子的化学位移信息。利用这些化学位移信息,我们提出一种新的蛋白质二级结构预测算法。算法首先使用KNN方法对蛋白质二级结构进行初步预测,之后在利用BCJR算法对预测结果进行平滑。   按照研究内容分类,本文的贡献和创新之处在于:   (1)群体数据集单体分型根据单体型固有的块结构,提出了一种更合理的单体型分块-合并算法,并将其应用于群体数据集单体分型中,提高了分型的准确性。   (2)家系数据集单体分型基于一种新型的异或基因型数据,结合家系信息,提出一个多项式时间的算法对单体型进行求解。和群体数据集相比,家系数据集有更大概率获得唯一解。   (3)序列模体发现提出了一种新的序列模体发现算法,设计了一个完美哈希函数,对解空间进行哈希,并在计算的过程中对不可能的解进行剪枝,和已有的算法相比,该算法取得了更高的效率。   (4)蛋白质二级结构预测基于化学位移数据和蛋白质序列,利用KNN方法对蛋白质二级结构进行预测,并使用BCJR算法对结果进行平滑,和已有的算法相比,该算法取得了较高的预测准确性。
其他文献
随着网络结构复杂性的增强,如何在扩展规模不断加剧的网络环境中高效地配置网络设备,已经成为网络管理领域中的焦点问题。目前设备厂商用的最多也是最传统的网络配置方式是命
随着系统功能的逐渐完善,视频联网监控平台目前已在我国各行业领域投入大量应用。视频联网监控系统在基本完成数字化与网络化后,由集中式向分布式、集散式发展,由人工干涉的
随着当代信息科技不断地更迭,地理空间数据渐渐演变为一种备受瞩目的信息资源。电子海图作为地理空间资源中的一种,在国家经济,国防建设等方面起到了非常重要的作用。但是电
随着计算机技术和多媒体技术的迅猛发展,人们越来越容易制作和存储数字视频,并且在通信与互联网普及的今天,数字视频在网络上的传播也更加容易,在全世界范围内形成了海量的数
随着Internet的普及以及网络技术、信息技术和传媒技术的飞速发展,网络教育教学模式应运而生,由于学习主体因素的特点,这种模式更多的应用在高等教育中。在许多高等院校国家
随着嵌入式技术的发展和无线通信技术的广泛应用,以移动智能终端为载体的移动地理信息系统(Mobile GIS)已成为地理信息系统研究的热点。移动GIS是集导航、定位、地图查询和空
近年来,网络技术飞速发展,网络攻击复杂化问题日益凸显。但是复杂的网络攻击往往隐藏在大量的普通网络攻击之间,使得现有实时入侵检测系统(IDS)难以发现复杂的多步攻击。因此
随着计算机应用的普及,软件质量成为软件工程最为关心的问题之一,软件测试作为软件质量的有效保障而备受关注。统一建模语言(UML)以其可全方位描述软件系统蓝图的优势,在众多
数据流模型是近年来出现的、一种新型的数据模型,广泛应用于网络监测、传感器网络数据分析、Web点击数据流分析、金融行业和商业交易管理数据等中。数据流的连续、快速、无限
煤与瓦斯突出是引发煤矿重大恶性事故的隐患,在防突治理方面,如何提高瓦斯突出危险性预测的精度,使防突措施减少盲目性,增强针对性的研究工作是有实用意义的。煤与瓦斯突出预