【摘 要】
:
高通量测序技术产生了海量基因序列数据,为生命科学的研究带来了前所未有的机遇。然而由于序列错误率和计算资源的限制,超大型宏基因组序列分析仍然是一个不可克服的障碍。Sp
论文部分内容阅读
高通量测序技术产生了海量基因序列数据,为生命科学的研究带来了前所未有的机遇。然而由于序列错误率和计算资源的限制,超大型宏基因组序列分析仍然是一个不可克服的障碍。SpaRC(Spark Read Clustering)是基于Apache Spark平台的一款针对测序片段read直接进行聚类的预组装软件。SpaRC具有良好的可拓展性,能够通过横向增加计算资源解决海量测序数据的分析问题。然而,SpaRC存在参数难以调节、聚类产生的簇较小等问题。针对以上问题,本文对宏基因组预组装软件SpaRC进行优化改进,使其可以应用至大规模测序数据集上,分离得到基因组级别的序列簇,从而为下一步的序列组装提供强有力的数据支持。本文主要研究工作如下:(1)针对可拓展宏基因组序列分析所涉及的相关理论和技术进行深入探讨,为进一步对SpaRC进行优化打下基础。主要研究了宏基因序列数据的表现形式和存储格式、大数据处理引擎Apache Spark和云计算平台AWS EMR、SpaRC聚类原理等。(2)提出一种基于贝叶斯方法的参数优化策略,实现针对不同数据集,自动选择最优参数。SpaRC的参数众多、且不同参数对聚类结果有极大的影响,难以手动挑选出特定数据集下的最优参数。本文应用基于高斯过程的贝叶斯参数优化方法,在小数据集上训练找出最优参数,并且将这组最优参数应用至相应的大数据集上。实验结果表明,贝叶斯参数优化可以有效地提高SpaRC的聚类效果。(3)提出一种基于全局聚类的重聚类策略,将来源于相同基因组的簇重聚类为一个较大的簇,进而重建个体基因组。SpaRC聚类得到的簇较小,每个簇只是部分基因片段的映射。本文通过引入一种全局特征向量,对SpaRC进行重聚类。实验结果表明,全局聚类可以有效地还原出个体基因组,这为发掘新物种基因组提供了一种新思路。
其他文献
近年来,肥胖症、高血糖、高血脂等一些慢性疾病的发病率呈一定的上升趋势,因此,富含不可消化碳水化合物的膳食因其所含较低的热量已成为这些慢性疾病患者的首选食物。膳食纤维被誉为“第七大营养素”,对人体健康具有重要的作用。但现阶段有研究指出,应该把膳食纤维的概念扩大到能到达盲肠的所有物质成分的总称,并将其定义为不可消化部分(Indigestible fraction,IF),此研究在营养学观点上更有意义。
如今是信息技术蓬勃发展的时代,人们通过互联网可即时浏览所关注的信息。随着科技的飞速发展以及互联网的繁荣,现在每天在互联网上所产生的数据量是以前传统文本时代所远不能
乡村治理作为国家治理的重要组成部分,直接关乎国家治理现代化建设。乡村不发展,中国就不可能真正发展。党的十九大报告提出要建立健全“自治、法治、德治”相结合的乡村治理体系,这是党和国家乡村振兴战略的具体要求和内容,是实现乡村治理有效的重要保障,对“三农”工作的开展有着十分重要的意义。我国乡村社会在实现治理现代化的过程中,面临着诸多问题和制约因素,构建“三治融合”的乡村治理体系面临着许多新问题和新挑战。
随着信息时代的到来和计算机技术的不断发展,自然语言处理应用在人们生活中的方方面面。如何高效地处理语言信息,是自然语言处理技术研究的关键所在。而中文分词作为支撑中文
基层公务员群体是公务员队伍的重要组成部分,也是基层治理的重要保障,基层公务员队伍建设对国家治理体系完善具有重要的意义。本研究基于无边界职业生涯模式和人才规律理论分析框架,以西部少数民族某贫困县——L县85名乡科级正职领导干部为研究对象,通过文献研究法、履历分析法等方法呈现西部少数民族地区基层公务员成长的路径及职业特征,总结出基层公务员六类职业成长路径:党政机关型、事业单位转任型、教师转任型、村官转
石墨材料作为已经商业化的负极材料,具有来源丰富且电化学性能稳定的特点。多层石墨烯具有优异的导电率、良好的储锂性能、能量密度更高等优点,但由于其高比表面积使得材料易于团聚。将石墨表面多层石墨烯化可以兼具二者的优势,提高石墨负极材料的性能。本文通过混合熔盐的方法使得石墨表面原位多层石墨烯化,材料的电导各向同性和电子电导率增强的同时也提高嵌锂能力,改善了容量及循环性能。与此同时,在负极材料表面复合纳米S
基因调控网是系统生物学的重要研究内容,对此研究者们提出了多种有效的研究方法,其中基于数学模型,采用生物工程的办法,来构建具有一定生物功能的基因调控网的正向工程技术法,被国内外广泛采用。基因振子多细胞系统是一类重要的基因调控网络,吸引了不同领域的科研和技术人员的关注。这些系统往往可以展示出同步、聚类、多稳性、多节律性和混沌等各种有趣的动力学现象,揭示这些现象产生的机制对于我们理解多细胞生物的群体协作
区块链,本质上是一种新型的分布式数据存储技术,其中记录了链上所有用户之间的交易往来信息以及用户的身份等敏感信息,其具有公开透明、存储的信息不可修改、多中心化等性质,
中空碳纳米球(HCN)具有质量轻、导电性好等特点,可以应用在诸多领域。然而,HCN的相对介电常数较大,仅能使少量入射电磁波进入材料内部而被衰减,因此造成了较差的电磁波吸收性能。研究发现,HCN与磁性粒子复合后体系的电磁参数可以得到有效调节,吸波性能也得到改善。本文通过软模板法成功合成了HCN,在此基础上制备出Fe_3O_4/HCN复合材料和Co@HCN核壳结构复合材料,并对其电磁波吸收性能进行了研
乳源性活性肽来源于发酵乳制品,多指氨基酸个数为3-5个的短肽,经过胃消化模拟实验证明有耐消化不被分解、易吸收的特性,同时具有抗氧化、免疫调节等生理活性。本实验探索了乳源性活性肽Gln-Glu-Pro-Val(QEPV)的生理活性,从体内、体外两个方面证实QEPV具有一定的免疫调节功能,并初步探索了其发挥功能活性的机理。体外实验结果表明,低浓度的QEPV(0.1g/L)对小鼠巨噬细胞(RAW264.