一种用于纳米孔测序中短序列聚类以及条形码解复用的混合算法

来源 :山东大学 | 被引量 : 0次 | 上传用户:akajewelz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,牛津纳米孔测序技术的应用极大的促进了生命科学的发展,测序的过程很容易被理解,一开始,DNA双链解开成单链,DNA单链通过“纳米孔”,DNA单分子停留在孔道,一些离子带来电流变化,不同的碱基(A,T,C,G)可以带来不同的电流变化。然后,可以得到一种电流图谱。最后应用一些模式识别算法可以将电流图谱翻译成碱基序列。简单来说,可以将牛津纳米孔测序的过程理解成由电流转化为碱基序列的过程[翻译过程]。基于牛津纳米孔测序技术,有两种方案可以完成单细胞测序。一种方案利用生物实验方法将单个细胞分离出来,单独构建测序文库,然后进行测序。这种方案成本很高,并且通量低。所以,近年来多采用第二种方案,即“基于标签的单细胞识别”。这种方案的思想是,给每个细胞的测序样本加上独一无二的DNA序列(barcode),测序完成之后,具有相同barcode的序列被认为来源于同一个细胞。基于barcode标签来识别序列来源的过程就被称为解复用。解决解复用的方法可以分成两类,一种基于纳米孔产生的原始信号,一种基于由电流信号转化得到的碱基序列。基于碱基序列的方法有很多前人研究的工作可以借鉴,比如说序列比对以及序列聚类。然而,由于翻译过程会引入错误,所以这种方法可能无法保证高精度的解复用。所以,近年来有很多学者从原始的电流信号出发,来解决解复用问题。这种方法规避了翻译过程中引进的错误,其本质上是时间序列聚类或者分类问题。近年来,一些基于深度学习的方法被提出,这些方法基于神经网络模型去解决信号分类问题。然而,这些方法都需要使用人工标注的数据来完成模型训练,通常来讲人工标注繁琐耗时而且也会发生标注错误,这给这些方法带来了巨大的挑战。在不断的实验以及测试中,我们综合了以上两种方法的思想,提出了一种混合聚类方法来处理解复用问题。这里的“混合”是指在我们的方法中,由牛津纳米孔测序技术产生的DNA序列以及纳米孔信号都被利用。相对于深度学习的“黑箱”处理,我们的方法可解释性更高并且可以得到相当的精度。一开始,我们采用CD-HIT算法完成DNA序列的初始聚类,然后,根据初始聚类结果得到一致序列进而得到一致信号,基于一致信号以及纳米孔信号,完成初始簇集的合并。最后,结合DTW算法(动态时间规整算法)完成结果细化。由于DTW算法是一种复杂度较高的算法,为了提高解复用的效率,我们实现了一种基于GPU的并行加速机制。全面的实验表明,我们方法的表现超过了所有的传统聚类工具,并可以达到基于深度学习方法相当的精度。另外,我们的方法不需要经过训练,十分容易使用,是一个可以在github社区获得的开源项目,这便于大家共同探讨与改进。
其他文献
在政府部门机构改革的大背景下,政府逐步探索运用市场化手段提升服务效能,“政府购买服务”随即得以使用并推广。税务机关在国地税合并、征管体制改革的背景下,纳税人需求凸显,办税服务厅窗口工作量急剧增加,为缓解这种供需矛盾,税务机关办税服务厅倾向于使用政府购买服务的方式。近年来,这项工作在全国陆续开展,成果明显,但是不可否认的是,新生事物发展时间短,再加上税务机关购买服务过程中对服务人员的专业性要求更为严
学位
粒子物理与原子核物理中的一个重要前沿课题就是在高能重离子碰撞实验中测量夸克胶子等离子体的物理性质,这对我们了解早期宇宙中的物质形态是至关重要的。在正常情况下,强相互作用力会使夸克胶子束缚在一起,产生强子,但是在足够的高温高压的情况下,强子则会解禁闭进入到由夸克和胶子组成的夸克胶子等离子态(Quark Gluon Plasma,QGP)。为了能够产生并且研究QGP,人类制造出大型离子对撞机,比如美国
学位
基于卟啉的金属有机纳米颗粒由于其多孔负载性、优异的光敏性能及多组分协同效应等优点在癌症诊断和治疗领域有很大的应用前景。但常用的卟啉基纳米颗粒合成方法多为溶剂热法,溶剂多为甲醇等有机溶剂并且伴随高温高压条件,这些条件给合成的纳米颗粒带来潜在毒性或者导致负载的客体活性药物分子在加热条件下失活的缺点,难以满足抗肿瘤诊疗的要求。为了解决上述缺点,扩展卟啉衍生物基金属有机纳米颗粒在抗肿瘤方面的应用,探究水溶
学位
太阳能是一种取之不尽、分布广泛、能量巨大的可再生资源,通过光催化转化利用太阳能是缓解当前能源短缺问题的途径之一。多孔材料通常具有孔隙率可调节、比表面积大、孔道结构永久开放等优秀的结构性质,特别是其大的表面积与质量/体积比允许反应物分子与材料表面和孔内部的结构充分发生相互作用,促进表面催化反应进行,因而将多孔材料作为光催化剂应用于光催化太阳能转化领域受到了研究者广泛关注。然而,多孔材料在光催化领域还
学位
纳米材料中的蛋黄壳结构是一种基于核壳结构的特殊结构,同椭球形胶囊药物、球形脂质体药物空间结构类似。相较于传统的核壳结构,蛋黄壳结构纳米材料拥有大小可控的腔体可以广泛应用于各个领域。基于蛋黄壳结构的多模式复合纳米平台,已经成为肿瘤诊疗领域的重点关注对象,在药物载体行为模式的研究领域也被广泛提及。但蛋黄壳纳米粒子的合成方法往往比较繁复,缺乏通用高效的制备路线,同时缺乏针对癌症诊疗一体化需要的通用型纳米
学位
北欧神话作为西方三大神话之一,形成时间要晚于希腊神话和罗马神话。近些年关于北欧神话的影视作品层出不穷,人们多少对其有了一些认识。但这只能算是泛泛而谈,北欧神话还有丰富的内容值得学者们作深入研究。《北欧神话》一书是由英裔犹太作家尼尔·理查德·盖曼于2018年写成,并于同年6月份出版。全书共分为十六小节。本书中作者通过巧妙的表现手法对北欧神话中的创世纪和主要神祗的事迹进行了详细描述,对于深入了解北欧神
学位
光学诊疗一体化能够实现精确诊断病情和同步治疗的功能,大大减少对正常组织的毒副作用,有利于达到最佳治疗效果。传统光学诊疗一体化试剂的制备通常采用“多合一”策略,即多个具有单独功能的组分被集成到一个纳米平台中。然而,这种复合材料受到低再现性、易解离和成分复杂等问题的限制。为了解决这些问题,以单一的有机荧光分子为基础,同时地进行荧光成像和光动力/光热治疗,被认为是“多合一”策略的理想替代方案。设计多功能
学位
此次报告基于作者2021年为克莱蒙生态论坛提供的接续传译口译服务。克莱蒙生态论坛是全球范围内规模最大的生态文明论坛之一。自2006年以来,该论坛汇聚了许多人才共同为人类所面临的挑战探索出路。2021年五月,第十四次克莱蒙生态论坛在线上召开,主题为生态文明及有机共同体。本报告以丹尼尔·吉尔的接续传译精力分配模型为理论依据,以克莱蒙生态论坛线上接续传译实践为样本,旨在探索该理论的应用如何促进口译过程。
学位
随着中国全球化进程的推进,在各种经济体的催生下,中国航空业发展也紧随世界发达国家的脚步迈向正规化、国际化。每年有大批飞行员出国接受专业培训,从而对于飞行口译的需求也越来越大。语意传递错误是日常交流、信息传递中的常见现象,在飞行口译活动中也不例外。在口译活动中,由于译员对原语理解不清、词对词翻译、译语语意混乱及专业术语准备不充分、译语的不完整和词序混乱等都可能导致语意传递问题。以往的口译研究对飞行口
学位
在新冠肺炎疫情这场世界性灾难面前,中国政府坚持人民至上、生命至上,快速有效处置疫情,最大限度保护人民生命安全和身体健康。在这一特殊时期,如何提供高质量的公共文化服务,满足人民群众公共文化需求,是摆在政府和公共文化服务机构面前的新课题。论文研究新冠疫情背景下公共图书馆服务职能的提升路径,可以为提升政府公共文化服务能力提供参考。论文以新公共服务理论和公共产品理论为基础,以山东省图书馆为案例,分析山东省
学位