【摘 要】
:
随着生物测序技术的不断发展,新一代测序平台产生的长序列(long reads)能够覆盖一个完整的结构变异,且序列的错误率越来越高(即序列中包含的错误越来越多)。对于更高错误率和更长长度的测序序列数据集,将它们与参考基因组进行比对时需要较高的编辑距离阈值。已有的算法对高编辑距离值的序列比对的敏感度不高,且会产生大量的假阳性比对结果,使得比对结果不够理想。为解决这些问题,本文研究设计有效的高错误率长序
【基金项目】
:
国家自然科学基金项目“CPU和GPU混合体系结构上生物网络比对并行算法研究”(批准号:61462005); 国家自然科学基金项目“含有Indel和结构变异错误的生物序列比对并行算法”(批准号:61962004);
论文部分内容阅读
随着生物测序技术的不断发展,新一代测序平台产生的长序列(long reads)能够覆盖一个完整的结构变异,且序列的错误率越来越高(即序列中包含的错误越来越多)。对于更高错误率和更长长度的测序序列数据集,将它们与参考基因组进行比对时需要较高的编辑距离阈值。已有的算法对高编辑距离值的序列比对的敏感度不高,且会产生大量的假阳性比对结果,使得比对结果不够理想。为解决这些问题,本文研究设计有效的高错误率长序列比对算法及并行化算法。本文提出一种基于分割-全映射-过滤-连接-补全策略的高错误率长序列比对算法HSSM。该算法将高错误率的长序列分割成较短的片段,借鉴全映射比对的思想,寻找所有满足编辑距离阈值的序列片段的候选位置;采用对高编辑距离更敏感的基于Hash索引的变长种子播种算法,定位序列片段在参考基因组上的候选位置;将连续“插入删除”相同碱基的编辑距离设置为1,使得算法可以处理第三代测序序列中新出现的“均聚物(homopolymer)”错误,以提升比对的敏感度;对片段侯选位置数量进行统计分析,求出片段候选位置质量分数,过滤掉质量不高的片段侯选位置;根据序列片段间的位置关系动态连接片段的侯选位置,连接片段侯选位置时,对不同错误类型给予不同罚分,以去除假阳性的候选位置,确保比对的准确度。在模拟和真实序列数据集上的实验结果表明,与同类算法相比,本文算法在获得相同的高准确度的同时,提升了比对查全率和敏感度。本文第二项工作是提出一种多级稀疏Hash表索引结构、设计高错误率长序列比对GPU并行算法HSSM-GPU。算法HSSM-GPU利用该多级稀疏Hash索引结构,在能够查找定位到所有k-mer在参考基因组上的位置的同时,最大程度地减少所需的内存空间,索引定位需要的内存空间更加接近GPU多级存储的结构,使得序列片段定位和验证工作可以在GPU中有效并行进行。采用倒序贪婪平均分配算法分配序列数据给GPU流多处理器SMs,以均衡线程间负载、减少序列数据在CPU与GPU之间的传输与同步等待时间;进而设计实现GPU并行加速序列片段在参考基因组中定位比对和候选位置验证。在模拟和真实序列数据集上的实验结果表明,与串行算法HSSM相比,并行算法HSSM-GPU所需时间大大减少,获得了良好的加速;在真实序列数据集上的实验结果表明,与同类的长序列比对并行算法LAMSA相比,本文给出的长序列比对并行算法HSSM-GPU获得了更高的对敏感度且所需的运行时间更少。
其他文献
自噬是细胞生长、存活及自我平衡的重要过程。自噬的失调参与多种疾病的发生、发展。依据自噬致使的降解成分到达溶酶体的途径,自噬可以分为:巨自噬、微自噬、分子伴侣介导的自噬。其中,巨自噬是目前研究较为广泛的细胞自噬形式,其在肝纤维化发生发展中扮演着重要角色。自噬在肝纤维化中的作用取决于细胞的类型和疾病的阶段,因此通过对细胞自噬进行调控可能为逆转肝纤维化提供了新的治疗策略。数十年的研究证明,中医药治疗肝纤
椎间盘退变是临床常见疾病,髓核与髓核细胞是椎间盘中主要的病变组织与细胞类型。髓核细胞受病理因素影响而加速衰老或出现代谢障碍时,髓核稳态被破坏,这导致了椎间盘退变的发生发展。自噬是细胞在病理环境下降解受损细胞器与异常蛋白质以维持正常生理功能的途径之一,能促进细胞自我调节以抵御致病因素影响。椎间盘退变时,髓核细胞处于应力失衡与代谢障碍的异常环境中,促进髓核细胞自噬可清除有害代谢产物累积、延缓细胞老化,
糖尿病周围神经病变(diabetic peripheral neuropathy,DPN)病程长且预后差,以轴突变性坏死、神经纤维节段性脱髓鞘、雪旺细胞凋亡等神经细胞损伤为主要病理特点。自噬是神经细胞的清洁机制,通过清除多余的代谢物来消除细胞压力源造成的伤害,从而维持细胞内稳态平衡。持续的高糖环境改变了机体自噬水平,自噬被抑制或过度激活均会造成神经细胞不可逆损伤,加速DPN进展,恢复自噬平衡,从而
动物机体健康与生产性能、畜产品安全及经济效益密切相关。自噬调节是一种非常重要的细胞修复机制,是通过清除错误折叠的蛋白质、损伤的细胞器以及入侵动物机体的病原微生物进行高度保守的一种自我消化过程。自噬调节在维持动物机体健康方面起着重要作用,失调的自噬调节与各种疾病的发生相关。植物活性成分对生命机体具有生理调节作用,堪比天然的“药房”,可通过调控不同信号通路介导自噬而减轻炎症反应,改善细胞基质代谢,提高
自噬调控神经类疾病是当前神经科学领域的研究焦点。自噬紊乱导致Aβ、Tau、α-syn等蛋白表达、沉积和功能失调,引发阿尔茨海默症、帕金森病、亨廷顿病等神经退行性疾病。运动是改善神经退行性疾病的重要手段,这与AdipoR1/AMPK/TFEB、AMPK/mTOR等途径被激活后上调LC3、Beclin-1、Lamp1等自噬因子表达密切相关,较高的自噬水平可清除脑中沉积的Aβ、Tau、α-syn等蛋白,
随着生命科学领域不断取得的关键性突破和计算机领域的不断发展,出现了生物信息学。其出现的本质原因是随着基因草图的绘制完成,基因的相关研究开始步入后基因组时代,众多的基因数据需要进行分析和处理,而沿用了多年的序列分析方法过于耗时,已经远远不能满足需求。在序列比对分析之中,蛋白质的研究具有很重要的意义。后基因组时代中有一个至关重要的部分,即分析蛋白质的结构、功能。然而传统的比对方法需要耗费大量的时间,且
全球经济飞速发展的过程中,能源能否有效的利用已成为制约世界各国的经济增长。现阶段核能的利用以及海洋资源的开采已逐渐成为世界经济发展最强有力的增长力和带动点。对于利用在核能方面和海洋资源开采的先进的工程装备而言,其是能否高效完成工程工作最为重要的基础。然而,由于核能快堆和海洋环境的特殊性,其工程装备中非常关键的零部件的使用损伤程度远高于陆上环境,其服役寿命大幅缩减。氮化铬(CrN)作为耐磨涂层,具有
<正>造纸术与火药、指南针、活字印刷术并称为中国古代的“四大发明”,但关于造纸术的发明时间,以及东汉蔡伦究竟是造纸术的发明者,还是改良者,学术界一直莫衷一是,没有形成统一的看法。根据刘光裕先生多年的研究,蔡伦在元兴元年(105)发明了“蔡侯纸”,并指出,蔡伦以前尽管已经有纸,但蔡伦之前纸的概念,与蔡伦所造纸并不是一回事。具体而言,主要指某些书写文字的缣帛纸、幡纸和絮纸。他认为,考古发现的蔡伦以前的
胰岛素抵抗(IR)是诱发许多代谢疾病的关键因素,包括代谢综合征、非酒精性脂肪性肝病、动脉粥样硬化和2型糖尿病(T2DM)。随着相关代谢疾病日益增加,寻找新的治疗靶点迫在眉睫。线粒体自噬是一种选择性自噬,其通过清除受损和功能失调的线粒体以维持正常线粒体功能和能量代谢。研究发现,线粒体自噬在代谢疾病中有积极作用,线粒体自噬受到各种信号通路调控而改善代谢疾病,如AMPK、PINK1/Parkin、BNI
自噬是近年来的医学热点领域,在此过程中,受损细胞器、蛋白质聚集物和脂滴等通发生降解(阴),并在此过程中生成能量(阳)与机体衰老和能量代谢密切相关。自噬在维持细胞内稳态、应对细胞内应激中的作用与阴阳消长、阴阳互用实现动态平衡、从而达到阴阳自和状态的过程不谋而合。从中医理论分析,老年血脂异常为本虚标实之证,与脾肾功能相关,与机体阴阳自和能力下降相关。本文尝试从中医阴阳理论为基础,探讨细胞自噬在老年血脂