支持大规模基因数据的压缩索引与查询优化

来源 :东北大学 | 被引量 : 0次 | 上传用户：ln466985609

【摘要】

：

随着下一代基因测序技术的发展,基因组序列数据正以指数速率持续增长。据估计,每一个人类个体的基因组约含三十亿个字母,存储这些信息需要使用大容量硬件设备,需要花费巨大的

【作者】

：

赵丹

【出处】

：

东北大学

【发表日期】

：

2015年01期

【关键词】

：

基因序列压缩数据倒排索引模式匹配查询优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着下一代基因测序技术的发展,基因组序列数据正以指数速率持续增长。据估计,每一个人类个体的基因组约含三十亿个字母,存储这些信息需要使用大容量硬件设备,需要花费巨大的空间代价,成本十分高昂。因此,如何有效地存储和查询这些基因序列数据成为了基因组学和医学面临的一个日益紧迫的问题。相关研究表明,任意两个基因序列之间的相似性程度都非常高。基于此理论提出了一个名为“DNAzip”的方案,其主要思想是选取一个基因序列作为基序列,其他序列的存储只保留与基序列的不同之处。借助该技术,可以有效地解决基因序列的存储难题,但现实中更多的需求是基因序列的查询,将已压缩的基因序列解压缩再进行匹配的传统方案需要强大的计算能力,花费巨额的时间代价以及额外的空间开销。因此,本文研究如何直接在压缩的基因序列上进行高效快速的查询,进而有效地解决该难题。本文综述了现有的模式匹配技术,针对已有的在压缩基因序列上直接进行查询的方法进行了研究与优化。首先针对Min_Verify和C_Verify方法所使用的head tail倒排索引不能直接访问具体修改操作的缺点,提出新的索引结构,然后根据新的索引结构构造基本精确匹配算法。由于在基本查询算法中,存在着相同查询结果验证多次的问题,因此为了提高查询速度,本文提出两种过滤思想:一,过滤head gram和tail gram的重复验证;二,对未修改基序列上查询区间的多个序列的多余验证进行过滤。最后,本文根据这两种过滤思想,分别对精确查询和近似查询进行优化。本文在真实的数据集上进行了大量的测试研究,在索引大小和查询性能上与现有算法进行对比,并对实验结果进行了分析。实验结果显示,添加过滤思想的优化查询算法在运行时间、过滤能力和索引大小方面都优越于其他算法,并且查询串的长度越大,过滤能力越强,算法性能越好。

其他文献

体外可控性Neurod2基因载体的构建及对MSCs定向分化的研究

研究表明大鼠骨髓间充质干细胞(MSCs)有益于脊髓损伤(SCI)后的功能恢复,本研究利用基因编辑技术构建人热休克蛋白启动子的真核表达载体hHsp70-ND2,并探讨了不同诱导时间对小

学位

Neurod2基因Hsp70MSCs基因治疗神经元

内切木聚糖酶和木糖苷酶的耐盐性改性研究

内切木聚糖酶和β-木糖苷酶都是非常重要的糖苷水解酶,它们在食品、饲料、造纸、纺织、能源等方面都具有重要的应用价值。耐盐酶在高盐浓度下仍然有催化活性和稳定性,可应用

学位

木聚糖酶耐盐性定点突变酶学特性

Banach空间中几种凸性的研究

Banach空间中的凸分析理论有着极其精妙的性质和作用,这些凸分析的理论推动着Banach空间几何理论的快速和深层次的发展.到目前为止,Banach空间中的凸性研究已有了极大的进步

学位

Banach空间ω-非常极凸局部一致极凸K-极凸平均一致极凸

面向UDN边缘用户动态资源分配与调度研究

随着新一代移动通信技术的变革和发展,评判系统性能的关键指标将更加多元化,比如更加注重用户体验、平均吞吐量、用户传输时延以及对网络新型业务的支持能力,为优化以上指标,

学位

区间干扰协调资源调度算法超密集网络边缘用户

基于石墨烯谐振环的可调吸波器

随着太赫兹技术的发展,可以吸收太赫兹波的器件开始不断地涌现。但现有的太赫兹吸收器由于尺寸过大和电磁性质有所局限,导致其出现吸收频率单一、调谐深度比较小的问题,所以

学位

石墨烯表面等离子体可调吸波器

基于差分隐私和安全多方计算的模型融合隐私保护数据挖掘方案

随着互联网的普及和大数据时代的来临,网络中产生和传输的数据量呈现井喷式增长。很多数据往往涉及到用户隐私,包含用户不愿泄漏的信息,然而已有的数据挖掘方案很容易导致这

学位

安全多方计算差分隐私模型融合隐私保护贝叶斯网络

面向数据融合的文本语义匹配的研究与实现

数据库领域所提到的传统的数据融合(data fusion)是数据集成领域的一个重要问题。它是将来自不同数据源、表示同一实体、具有重复性和互补性的记录进行检测并整合为一条完整

学位

实体关联文本数据融合文本匹配相似网络单词对齐

关于复Banach空间上的逼近问题

在本文中,我们主要研究函数系在加权Banach空间中的完备性问题.本文研究了函数系在具有无穷个重点的情况下,其在Banach空间中的完备性问题.主要内容如下:在第二章中,假设B为

学位

Banach空间完备性重点多元指数函数系

模拟人类记忆与推理方式的路径规划方法

随着中国智能工业的升级调整,人口老龄化以及人力成本的提升,“智能制造2025”已从概念走向了实际,移动机器人技术在未来的发展中已然成为了一股不可或缺的力量。其中,路径规

学位

移动机器人路径规划记忆模型模糊逻辑算法

面向中亚的模具供应链关键技术研究与实践

模具是制造业发展的基础,被称之为“工业之母”。新疆地区模具行业整体发展基础薄弱,信息化水平低,在国家“一带一路”提出的背景下,新疆由于其特殊的地理位置,与中亚各国相

学位

供应链合作伙伴选择模具行业合作博弈中亚

支持大规模基因数据的压缩索引与查询优化

其他学术论文