基于Context加权的基因组序列编码研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:li1977323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因组序列的高效压缩算法不断地涌现,各类利用序列内统计特性和重复特性来进行生物序列压缩的方法不断地被优化。其中,针对同源物种间DNA序列高度相似度的特点,利用目标序列去构造一个Context加权模型,将概率分布放入算术编码器编码以实现对DNA序列的压缩,所得的效果非常的显著。前面所有的研究都是在如何优化权值,却没有人去研究过这种加权算法中各个时刻的概率分布是否参与加权的选择上,所以针对前人对这一研究不足的情况,本文设计使用可选择的Context加权模型,根据描述长度增量来判断概率分布的相似性,再决定是否进行加权,最后得到我们的研究结果。首先,对我们经过处理之后所得的目标序列进行存储,留作待编码时去检索。我们需要考虑每个字符间的一个相关性特点,提出利用多组Context模型加权合并的办法来有效地减小码长,这里我们选用了一种均等权值的方式。然后对每个模型中概率分布的描述长度进行计算,然后利用描述长度增量与门限的关系,判断概率分布的相似性,若是相似,则采用加权的方法进行编码求码长,若是概率分布不相似,则选择其中信息熵最小的概率分布去编码,最后得到总的码长。进而统计门限不同情况下所对应求得的编码码长的值,进行分析。实验结果表明,通过描述长度去判断概率分布是否相似再选择性的去做Context加权可以对目标序列的压缩效率进行更好的改善,也就是可以有效的减小码长,无失真的压缩,其中一种模型下提高了千分之6的压缩效率。也就说明了在进行基因序列压缩的过程中,运用这样的方法可以提高我们的压缩效率。
其他文献
群体感应作为生物体内不可或缺的重要调节机制之一,受到了国内外专家学者的广泛关注。研究群体感应发生过程中各生物因子间的关系,探索生物因子间的变化规律,对群体感应引起的相关疾病的预防及治疗具有重要意义。本文基于群体感应的发生过程具有强的非连续性,引入了非连续函数,通过研究群体感应对信号分子浓度的调节作用,建立了具有非连续函数的数学模型,利用非光滑系统和时滞系统理论,对模型的动力学性质进行了系统地理论研
在京津冀一体化发展进程中,省会城市石家庄的经济发展和居民生活水平稳步提高,人们对健康饮食的要求也越来越高。木本蔬菜香椿,凭借其“天然不用药而驱虫”的无公害特点和丰富的营养价值,愈来愈受到人们的青睐。SGX专业合作社位于香椿的故乡﹣石家庄市鹿泉区谷家峪村。近几年SGX专业合作社的香椿种植面积虽然逐年增加,香椿产量也逐年增多,但香椿营销却没有得到合作社的足够重视。SGX专业合作社的香椿种植规模扩大速度
社区发现是目前复杂网络研究的热点问题,在商业、社会学、生命科学等多个领域有重要的应用。研究中提出了许多有效的社区发现算法,其中标签传播算法以其近线性的运行时间和易
旋毛虫在感染早期即可引发BALB/c鼠免疫应答,启动免疫调控机制,但多数研究停留在感染中期或晚期,对感染早期的现象及潜在机制的研究仍不够深入。为了探究旋毛虫感染早期如何
目的:系统评价益生菌和合生元治疗成人及儿童非酒精性脂肪性肝病(NAFLD)的疗效。方法:计算机检索Pub Med、Wed of Science、EMBase、The Cochrane Library、中国科技期刊数据
随着油田勘探开发的深入和钻井技术的进步,疑难井逐年增多,常规测井工艺不能完全满足生产需求,需要开发新型测井作业模式。以实时测井和存储测井双功能φ57mm过钻杆测井仪器
模李超代数(即素特征域上的李超代数)的研究已取得了许多重要的研究成果.在对李超代数研究的过程中,超导子代数是李超代数研究的重要内容之一.本文首先证明无限维模李超代数(?)是单的.其次确定无限维模李超代数(?)的生成元集.最后,确定了模李超代数(?)的Z-齐次超导子.进而确定了无限维模李超代数(?)的超导子代数.
多目标最优化是最优化范畴的一个主要的分支,同时凸函数和广义凸函数是数学规划的理论基础之一。在多目标优化问题中,几乎所有的结果都依赖于目标函数和约束函数的某种凸性,因此函数的凸性和广义凸性始终是人们高度关注并深入研究的一个重要课题。弱有效解存在的最优性充分条件是建立优化算法的重要基础,它与多目标规划的对偶理论问题都是多目标优化领域研究的热点问题。本文旨在定义的两类新广义凸函数的基础上研究多目标规划问
氢核是最常用的核磁共振检测核,然而氢谱的化学分布范围窄,偶合裂分复杂,谱峰混叠严重,高分辨核磁共振谱技术的研究正是为了有效解决上述问题。近年来,提高核磁共振谱图分辨
岩体中裂纹扩展与贯通一直是岩石力学研究的热点问题,不少岩体工程的失稳破坏就是由于其内部裂隙的扩展贯通引起的。岩石材料具有不均匀性和不连续性,且岩体裂隙扩展理论尚不