基于DNA序列的无损压缩算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kona
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,越来越多的数据被人们所记录用于开展各种工作与活动。在生物信息领域,DNA作为生物体内储存着大量生物遗传信息的遗传物质,对生物生命机能产生了重要的作用。在DNA测序技术和其他各类测序技术的影响下,DNA序列数据也急速增长,数据量增长速度呈指数方式。如何利用有限的储存空间,有效地保存大量有研究作用的DNA序列数据,是现今DNA研究相关领域学者所面临的新课题。然而,传统的数据压缩算法对DNA序列的压缩结果并不理想,甚至可能导致存储空间膨胀。DNA序列内部特殊的重复结构,如直接重复,镜像重复,互补回文等,以及不同物种或相同物种不同个体DNA序列间的高度重复性,使得DNA序列的结构化压缩成为可能。本文主要研究如何利用更有效的压缩方法以减少数据的存储空间。针对有参考序列的DNA序列压缩,本文结合字典编码与统计编码的优势,提出了一种有效的DNA序列压缩方法——基于全文索引的互补上下文压缩算法。在压缩第一阶段,该方法利用高效索引结构FM-index查找并定位参考序列中的最长匹配序列,由于FM-index结构通常用于固定长度图案匹配,不利于对实际序列的匹配和记录信息,改进后的FM-index可以在有限时间内对可变长度序列进行查找与定位。为了在解码端无损恢复出输入序列,对于第一阶段未匹配的符号,本文利用互补上下文模型,根据不同的上下文模型计算符号出现概率,并结合连续上下文与非连续上下文模型计算出预测概率进行算术编码,从而实现高效的序列无损压缩。实验证明该方法对未经预处理的序列在压缩率上超过其他DNA压缩算法。针对无参考序列的DNA序列压缩,本文提出了一种基于自编码器的序列预测与压缩模型。利用卷积层结构学习数据的特征表示,通过自编码器编码部分得到序列的稀疏表示单元,并将该表示作为压缩编码的一部分。将得到的表示单元输入到解码部分重构输入序列。为了达到序列无损压缩的目的,将重构序列与输入序列间残差记录并编码压缩,作为压缩编码的另一部分。本文探索了利用深度学习技术实现序列无损压缩的可能性,通过网络学习到序列隐含的特征。实验证明本文提出的卷积自编码器模型对人类基因组DNA序列的重构准确率高达98%以上,压缩率达到4.78%,实现了比传统算法更高的压缩率。
其他文献
在网络课程教学及碎片化自主学习需求日益增加的现在,在医学院校积极开展利用碎片化时间进行系统学习的新教学模式越来越重要。通过网络平台设计符合相应学生和课程的教学活
采于北淮阳东段的4组全岩Rb-Sr等时线年龄表明:出露于金寨县李桥和肥西县防虎山的变质岩层为中元古界(1595~1726Ma);大别山北东缘变质表壳岩为晚元古代(759~822Ma)佛子岭群成分 The Rb-Sr isochron ages of 4
随着全国农村人居环境整治的推进,农村生活污水治理越来越受到重视,亟需根据农村地区的特点和当地水环境容量,优选适宜的处理技术。厌氧消化技术因为运行管理简单、处理费用
一位经验丰富的节油驾驶专家在客车上24小时待命,随时对驾驶员进行贴身指导,提醒其按照最佳节油状态驾驶客车,这并不是不切实际的设想,大金龙通过在车上安装ECO- An experie
目的观察康复新液治疗细菌性小儿下呼吸道感染的临床疗效、安全性。方法 79例细菌性下呼吸道感染患儿随机分为治疗组、对照组。两组均给予抗感染、化痰、吸氧、营养支持等常
“你们公司是做‘黑匣子’的?好高端……”“‘黑匣子’是不是一块铁疙瘩里面装个摄像机?”“‘黑匣子’是不是黑色的?”,常常我的同事们都会被一些奇怪的问题问得摸不着头脑。的
报纸
钱米并征是十国田税的特点 ,也是唐宋之际两税法变迁的反映。十国时期 ,钱米并征在南方政权中普遍存在 ,这是唐代两税法中户税钱额向地亩的转移 ,也是宋代夏钱秋米制度的滥觞
现代化的社会是法制健全和高度民主文明的社会,现代化的公民必须具备现代化的公民意识,我国目前正在向现代化法治国家迈进,对现代公民意识及公民教育产生了强烈呼唤。学校思
在中国的政治体制改革进程中,社会政治传播机制的走向应当如何呢?我认为,公共关系化不失为路向之一。从原有的政治传播运作模式转向公共关系化的模式,有哪些区别呢?我想,至
期刊
不同形式的可达性指标所揭示的交通基础设施可达性特征具有差异性,客观地将不同指标进行综合以全面掌握可达性效应,对于科学评估交通基础设施新建的效果具有重要意义。文章综