面向基因组的高效FM-index构造算法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cxdong54321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着第一条人类DNA被解码成2.8GB的字符串,许多生物学的研究都集中在对DNA序列的分析上。本文选取DNA序列的索引进行研究,旨在解决目前DNA序列的FM-index不能够在普通电脑(4-8G内存)上高效构造的问题。本文提出的增量式构造FM-index的算法框架为继续研究高效构造FM-index提供了理论基础。现实意义上,该算法扩展了FM-index的应用范围,节约了购买超级计算机的成本。FM-index是压缩全文本自索引的一种。通常FM-index的算法框架分为以下步骤:首先,将文本T经过BWT变换(Burrow-Wheeler Transform)得到的文本L;然后,采用小波树(Wavelet-tree)对文本L进行编码存储;接着为小波树的内部节点提供高效的rank查询结构;最后采样后缀数组(SA)和名次数组(SA-1)。FM-index在这些基础数据结构的支持下实现高效的count,locate和extract操作。它最初最多使用5nHk(T)+o(n)位的空间存储,其中Hk(T)表示T的k阶经验熵,n表示文本的长度。FM-index可在普通电脑内存中存储,然而构造过程中过高的峰值内存或者过长的构造的时间均限制了FM-index的应用。通过大量阅读和分析之前的研究成果,深入理解BWT变换的过程,理解SA、SA-1和LF映射的关系以及rank查询结构的特点,经过大量实验测试与分析,最终得到了本文的算法。本文主要分3个部分进行了研究:首先,为了解决DNA数据的BWT变换无法在普通电脑上完成的问题,本文提出了LF-BWT算法。该算法理论上在线性时间内利用线性空间完成了DNA数据的BWT变换,实验表明,LF-BWT算法仅需不到原文本1倍的空间就可以快速完成DNA数据的BWT变换,并且可以调整参数来获得时间和空间的权衡,进一步扩展了LF-BWT算法的使用范围。该算法在与最新的主流算法的比较中也表现出了优势。第二,为了解决LF-BWT算法在构造过程没有获得SA和SA-1采样的问题,本文提出了由BWT变换生成的文本通过LF映射在线性时间内获得SA和SA-1采样的算法。该算法并不完整存储SA,而是每次LF映射过程中遇到采样点就进行采样,这极大的减小了内存空间的占用。第三,为了更进一步提高FM-index的压缩率和查询效率,本文提出了RRR算法的一个改进版本CF算法,它充分结合了CPU字长以及数据的局部性原理,提高了cache命中率。该算法在保持了与RRR算法的空间和查询时间理论复杂性一致的情况下,提供了更加高效的实际性能。实验表明,不管是随机数据还是真实DNA数据,CF算法均表现出了很大的优势。
其他文献
贫困问题一直以来都是我国关注的话题,随着时代的发展,距离我国第一个百年目标越来越近,解决贫困问题日益紧迫,扶贫助贫成为了当代主要问题之一。为了有效解决这一问题政府提出了许多帮扶政策,但是存在贫困人数统计精度不够的情况,导致我国扶贫的效果不显著,因此,国家领导人和相关部门提出要精细的识别贫困群众,让贫困群众感受到国家扶贫助贫的决心。本文在精准扶贫得背景下,与PPP模式相结合,构造一种新的扶贫长效机制
由于国营农场的特殊身份,它是我国农业的重要组成部分。但伴随着农业的不断发展,国营农场这一特殊农业经营组织的经营体制也需要创新。国营农场的双重属性早已让它肩负着特殊的使命,新时代的国营农场需要与时俱进并积极响应国家政策。因此探讨国营农场如何进一步对农业经营管理体制创新,使其发挥从事现代农业的比较优势,真正实现现代化农业生产与管理有着重要的作用及示范意义。潜江市国营熊口农场位于江汉平原腹地,是湖北省历
随着现代技术的不断发展和升级,信息的传播方式越来越丰富,呈现出文字、视觉、听觉等多模态发展的趋势。同时,话语分析也开始趋向探索不同模态之间的配合与协作。现阶段的多模态研究主要集中于静态文本的分析,视频等动态资源的分析还十分有限。作为高校向国际招生的重要宣传手段,高校国际宣传片在传播方式上采用静态文本与动态视频相结合,以达到在短时间内让国际学生对该校有一定的了解,同时还可以扩大该校的国际影响力。本文
性别分化是生物发育的重要科学问题,鱼类性别发育机制多样,是研究脊椎动物性别问题的良好材料。社会性因素调控鱼类性反转的机制,是性别发育中既复杂又有趣的问题。波纹唇鱼是一种由雌转雄的性逆转鱼类,芳香化酶通过对性激素调控直接作用于性腺反转。对于社会性的性反转鱼类而言,找到Cyp19a1的上游调控因子,能够进一步揭示性别调控通路的机制。类固醇生成因子1(SF-1/Ad4BP)是核受体超家族中的一员,通过调
目的:本研究从方证辨证的理论出发,运用桂枝芍药知母汤加减治疗慢性肾脏病3~4期阳虚寒湿水泛证的患者,并观察其临床疗效,探讨可能的作用机理,为慢性肾脏病的临床治疗提供新的思路。方法:选择60例符合纳入标准的慢性肾脏病3~4期合并水肿的非透析患者,且中医辨证符合桂枝芍药知母汤证,将收集的病例随机分为两组,对照组和试验组各30例。对照组给予常规西药治疗干预方案(包括原发病的治疗、并发症的治疗以及饮食治疗
近年来人工放电等离子体在航天、雷达对抗及材料表面处理等多个领域得到了广泛应用。静电探针作为具有高空间分辨率的等离子诊断手段,是目前获取直流放电和射频放电等离子各
目的:本研究是选用健脾化痰活血法治疗痰瘀互结型慢性阻塞性肺疾病合并肺间质纤维化(Chronic Obstructive Pulmonary Disease complicated with Pulmonary Fibrosis,COPD-PF)通过观察对患者生活质量和相关细胞因子浓度水平的影响,来分析此法的作用机制,给疾病的诊疗提供新的思路。方法:选取随机对照临床研究设计,对62例COPD-PF稳
在有瞬时流动和质量传输的多相系统中,液滴和气泡动力学以及它们之间的交互作用是一个很重要的课题。在液滴和皂膜运动中,气液交界面处有吸附的表面活性剂。表面张力梯度或者
板壳薄壁结构流固耦合的振动和失稳特性的研究是很多实际工程领域中经常遇到和有待迫切解决的疑难问题。对薄板结构与流体的流固耦合振动问题的深入了解,不仅揭示了板结构在
重构基因调控网络是了解生物过程的关键问题,其下游研究可以为药物定位和精准医疗提供有意义的策略。微阵列方法提供了大量基因表达数据,这为重构基因调控网络提供了可行的基