【摘 要】
:
测序技术的进步,使得人们对基因组测序的兴趣日益增加。早期测序技术需要几年的时间来捕获30亿个核苷酸的基因组,目前新一代测序技术在数天内就可以对220亿个核苷酸的基因组
论文部分内容阅读
测序技术的进步,使得人们对基因组测序的兴趣日益增加。早期测序技术需要几年的时间来捕获30亿个核苷酸的基因组,目前新一代测序技术在数天内就可以对220亿个核苷酸的基因组进行测序。在测序速度提升的同时,测序成本也直线下降。基因组测序在个性化医疗和公共健康中日益发挥着重要的作用。越来越多的基因组测序数据在不断产生,这些数据需要进行有效的存储、传输和分析。如何解决高速增长的数据与有限的存储空间的矛盾,成为重要的研究课题。DNA数据压缩为解决问题提供了一种有效思路。但由于DNA数据自身的特点,传统的压缩方法难以达到很好的压缩效果。本文针对上述问题,在前两章调研了现有的高通量数据压缩技术,并对相关的压缩算法原理和以及面临的挑战进行分析,最后提出了改进的高通量数据压缩算法。本论文做了如下几件工作:(1)调研了高通量测序数据集的存储格式,以及现有的压缩算法。分析了测序数据的生物特性,同时通过分析表明,对质量分数的有损压缩,在提高压缩性能的同时,在下游分析中还能保持较好(有时甚至更优)的性能。(2)在基于参考基因组进行差异化压缩编码的方案基础上,采用垂直方向的编码方式,同时对质量数采用稀疏化处理和均值处理相结合的方式,获得较好的有损压缩性能,实验表明压缩效果更优。(3)针对数据需要随机解压缩和快速检索的需求,在分析自索引压缩技术原理的基础上,提出基于PBWT数据结构的自索引压缩技术,实验表明,自索引技术的引入,在随机解压缩上有较好的性能。本文在基于参考基因组的压缩算法基础上,提出了基于自索引结构的随机解压缩算法,在压缩效率上有一定的优势,同时可以满足局部检索和解压缩的需求。这在一定程度上可以缓解海量高通量数据的存储和传输压力,为后续相关研究提供经验和借鉴。
其他文献
腮腺是涎腺中最大的一对,分别位于颜面两侧耳下,下颌升支与胸锁乳突肌之间,并突向前覆盖咀嚼肌后兮的浅面。腮腺为浆液性腺体,本身的结构较简单,但与周围血管神经等组织间的关系颇
在多种乐团演奏当中,交响管乐团演奏是比较常见的,交响管乐团合奏属于核心管乐合奏,要想保证交响管乐团演奏到位,必须加强乐团训练。~([1])本文主要分析交响管乐团训练中的问题
利用相对论哈密顿-雅可比方法求出了电子在激光场中的相对论性运动方程的解析解.并且在电子与激光脉冲散射的实验室参照系、电子初始静止参照系、电子平均静止系中,对于给定
为建立适用于板栗多种农药残留检测的高效液相色谱-串联质谱(HPLC-MS/MS)分析方法,以乙腈为提取溶剂,样品经高速均质提取,PSA、C18固相萃取柱净化后用HPLC分离,以Agilent C18(2.
隐喻研究从亚里士多德时代就一直是各派语言学家关注的焦点之一,其中又以系统功能语法学派的研究为代表,其代表人物Halliday将语法隐喻引入了系统理论研究的阶段。然而,Halliday
<正>一、美国金融危机的最新进展及演进趋势目前,美国金融危机已对美国及其他国家的实体经济产生影响,金融、生产和消费产生恶性循环,居民财产性收入大幅度缩水,失业率不断上
文章介绍了在煤矿办公楼及宿舍楼等公共场所空调系统中设置新风的重要性及新风量标准,着重分析了工程设计中常见的几种新风引入方式。
目的:探讨对宫颈癌患者选择腹腔镜下广泛性子宫切除术+盆腔淋巴结清扫术治疗的临床效果。方法:选择笔者所在医院2016年3月-2018年10月收治的64例宫颈癌患者作为研究对象,采用
农民收入与农业农村发展新阶段●杜鹰年前召开的中央农村工作会议指出,经过20年的改革和发展,我国农业和农村经济进入了一个新的历史阶段,同时又指出,近年来农产品出现销售不畅、价
人类辅助生殖技术中伦理关注的重点是不孕症夫妇的生育权利问题,而子代的权益往往被很大程度的淡化甚至忽视。在获得后代和子代风险的权衡中,绝大多数不孕症夫妇选择维护自己