支持大规模基因数据的压缩索引与查询优化

来源 :东北大学 | 被引量 : 0次 | 上传用户:ln466985609
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着下一代基因测序技术的发展,基因组序列数据正以指数速率持续增长。据估计,每一个人类个体的基因组约含三十亿个字母,存储这些信息需要使用大容量硬件设备,需要花费巨大的空间代价,成本十分高昂。因此,如何有效地存储和查询这些基因序列数据成为了基因组学和医学面临的一个日益紧迫的问题。相关研究表明,任意两个基因序列之间的相似性程度都非常高。基于此理论提出了一个名为“DNAzip”的方案,其主要思想是选取一个基因序列作为基序列,其他序列的存储只保留与基序列的不同之处。借助该技术,可以有效地解决基因序列的存储难题,但现实中更多的需求是基因序列的查询,将已压缩的基因序列解压缩再进行匹配的传统方案需要强大的计算能力,花费巨额的时间代价以及额外的空间开销。因此,本文研究如何直接在压缩的基因序列上进行高效快速的查询,进而有效地解决该难题。本文综述了现有的模式匹配技术,针对已有的在压缩基因序列上直接进行查询的方法进行了研究与优化。首先针对Min_Verify和C_Verify方法所使用的head tail倒排索引不能直接访问具体修改操作的缺点,提出新的索引结构,然后根据新的索引结构构造基本精确匹配算法。由于在基本查询算法中,存在着相同查询结果验证多次的问题,因此为了提高查询速度,本文提出两种过滤思想:一,过滤head gram和tail gram的重复验证;二,对未修改基序列上查询区间的多个序列的多余验证进行过滤。最后,本文根据这两种过滤思想,分别对精确查询和近似查询进行优化。本文在真实的数据集上进行了大量的测试研究,在索引大小和查询性能上与现有算法进行对比,并对实验结果进行了分析。实验结果显示,添加过滤思想的优化查询算法在运行时间、过滤能力和索引大小方面都优越于其他算法,并且查询串的长度越大,过滤能力越强,算法性能越好。
其他文献
研究表明大鼠骨髓间充质干细胞(MSCs)有益于脊髓损伤(SCI)后的功能恢复,本研究利用基因编辑技术构建人热休克蛋白启动子的真核表达载体hHsp70-ND2,并探讨了不同诱导时间对小
内切木聚糖酶和β-木糖苷酶都是非常重要的糖苷水解酶,它们在食品、饲料、造纸、纺织、能源等方面都具有重要的应用价值。耐盐酶在高盐浓度下仍然有催化活性和稳定性,可应用
Banach空间中的凸分析理论有着极其精妙的性质和作用,这些凸分析的理论推动着Banach空间几何理论的快速和深层次的发展.到目前为止,Banach空间中的凸性研究已有了极大的进步
随着新一代移动通信技术的变革和发展,评判系统性能的关键指标将更加多元化,比如更加注重用户体验、平均吞吐量、用户传输时延以及对网络新型业务的支持能力,为优化以上指标,
随着太赫兹技术的发展,可以吸收太赫兹波的器件开始不断地涌现。但现有的太赫兹吸收器由于尺寸过大和电磁性质有所局限,导致其出现吸收频率单一、调谐深度比较小的问题,所以
随着互联网的普及和大数据时代的来临,网络中产生和传输的数据量呈现井喷式增长。很多数据往往涉及到用户隐私,包含用户不愿泄漏的信息,然而已有的数据挖掘方案很容易导致这
数据库领域所提到的传统的数据融合(data fusion)是数据集成领域的一个重要问题。它是将来自不同数据源、表示同一实体、具有重复性和互补性的记录进行检测并整合为一条完整
在本文中,我们主要研究函数系在加权Banach空间中的完备性问题.本文研究了函数系在具有无穷个重点的情况下,其在Banach空间中的完备性问题.主要内容如下:在第二章中,假设B为
随着中国智能工业的升级调整,人口老龄化以及人力成本的提升,“智能制造2025”已从概念走向了实际,移动机器人技术在未来的发展中已然成为了一股不可或缺的力量。其中,路径规
模具是制造业发展的基础,被称之为“工业之母”。新疆地区模具行业整体发展基础薄弱,信息化水平低,在国家“一带一路”提出的背景下,新疆由于其特殊的地理位置,与中亚各国相