基于统计理论的DNA序列压缩算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yudalong880210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA存储生命的遗传信息,是生命生存、发展、进化的物质基础。针对DNA序列的研究具有重要的社会以及科学意义。作为研究对象的DNA序列数量庞大,进行信息的交换研究需求也逐步提高,为进行有效存储和传输,需要发展DNA序列压缩技术。近年来,针对DNA序列自身特殊性的各类压缩算法不断涌现,此领域取得了一定的进展。目前已存在的DNA序列压缩算法有两类,一类是基于替代的压缩,另一类是基于统计信息的压缩。本文针对两类算法的原理及特点,分别做了创新性改进,提出了两种新算法。首先,本文主要针对基于统计信息的DNA序列压缩提出了基于混合概率分布算子的算法。混合概率分布算子是针对XM算法(当前较先进的统计类算法)中的概率分布算子进行的创新性改进,其本质是几类有限上下文概率分布算子的联合应用,更好的利用了数据特点进行序列符号的概率分布预测,而后将概率分布预测进行算数编码,实现压缩编码。同XM算法相比,本文算法能够获得更好的压缩效果。本文研究了基于迭代字典创建的DNA序列压缩算法。在每一次迭代过程中,创建字典选取最高频率适宜长度的序列片段,而后采用预定义的非终止字符替代本次迭代的输入序列中最高频率序列片段,将替代后的序列送入下一次迭代,直到迭代终止。最终输出序列即为实现压缩后输出。实验结果显示算法的压缩效果达到了一个新高度。在进行迭代字典创建主压缩过程前,本文又提出一种基于改进LZ压缩算法的预处理过程,改进LZ算法满足输出序列仍由四种碱基符号组成的预处理要求,并将序列进行了一定程度的压缩。最终的压缩效果比单独使用迭代字典创建算法更优。
其他文献
传统驱动蛋白的颈链与马达结构域的对接是这个分子装置力产生过程的重要一步。颈链对接过程的启动步骤是颈链的前三个氨基酸(2KIN中的LYS325,THR326和ILE327)一定要形成半螺
在具有多个传播源点的复杂网络中,有效的定位信息传播源点对于预测传播范围、控制传播过程等具有重要的作用。一般来说,社会网络上的信息传播是由多个信息源点发起的,比如谣
本文在upscaling技术的基础上,研究间断Galerkin方法求解各向异性的多尺度对流扩散问题。各向异性多尺度问题研究的是流体在各向异性多孔介质中的运动规律。传统的有限元方法
目的:观察清肠合剂灌肠对粘连性肠梗阻患者治疗前后血浆胃动素及白细胞介素-6(IL-6)的影响。方法:将纳入研究的60例粘连性肠梗阻患者随机分组,在西医常规支持治疗的基础上,配合灌肠治疗(治疗组+清肠合剂,对照组+肥皂水)。观察两组患者肠道功能恢复情况(肠鸣音恢复正常的时间、首次排气时间、首次排便时间),胃动素和IL-6水平,中转手术例数,以及中医临床症状和体征评分的比较。并将两组患者治疗前和治疗一
微生物复合菌肥是指一类含营养补充剂的有活性的特定制品,能够产生多种生理活性物质促进植物生长,提高植物抗逆能力,改善农产品的品质,减少化学肥料的使用,应用前景十分广泛
近年来,我国证券投资基金业发展迅猛,基金品种和规模迅速扩张,基金业在整个金融体系中占据着举足轻重的地位,而开放式股票型基金作为投资股票比例较高的一类基金,对规范和稳定证券市场以及降低金融市场风险都起着至关重要的作用。随着越来越多的投资者购买开放式股票型基金,如何构建科学的评价体系以及使用合适的评价方法评价其绩效表现,对于基金投资者、基金管理者和基金监管者都具有非常重要的理论和现实意义。所以,本文结
工程中大多数结构是在疲劳循环载荷作用下工作的,由此引发的疲劳断裂是结构失效的主要形式之一。6061铝合金由于其具有高的比强度和低的比密度以及优良的焊接性,被越来越多的
本文选用田间废弃物油菜秸秆为原料,首先利用KOH活化制备出生物炭,再将这种生物炭与Fe_3O_4结合,获得了Fe_3O_4/生物炭复合材料,最后采用Zn Cl_2为活化剂,一步方法制备了生物炭。分别将他们应用于水体中盐酸四环素和环丙沙星盐酸盐抗生素的吸附研究。通过使用X-射线衍射、红外光谱、扫描电镜、比表面及孔径分析仪等测试技术分别对油菜秸秆生物炭材料的晶相、形貌、表面官能团和比表面积进行表征,考
本文主要研究修正Jaulent-Miodek (MJM)超可积系统,建立超MJM方程族的Bi-Hamilton结构以及其无穷守恒律.文章首先利用一个3×3矩阵谱问题导出与其相联系的一族非线性微分方程
电控喷嘴阀是发动机燃料供给系统的重要组成部分,常因其工作频率高、相互作用力大,严重影响其燃气喷射精度和疲劳寿命可靠性,成为制约发动机进一步发展的一个重要因素。采用