基于长k-tuple特征的微生物群落宏基因组非监督比较及生物多样性分析平台

来源 :厦门大学 | 被引量 : 0次 | 上传用户:puccacat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微生物群落是广泛存在于生态系统中的一种结构单位和功能单位。微生物群落的比较分析,一直是生态学研究的重点。高通量测序为微生物群落的比较提供了一种强有力的技术手段。通过高通量测序技术,来自环境中的微生物群落可以产生数十亿条长度为100-300bp随机读段,从而获得微生物群落的宏基因组测序数据。  不依赖已有的参考数据库进行微生物群落比较分析时,无需配准的基于短k-tuple(k=2-10bp)的方法可以很好地描述一个群落中所有短k-tuple的频度统计分布,但无法获取群落内部细致的生物信息。通常而言,k-tuple越长,那么它包含的生物信息就越丰富。然而,因为长k-tuple(k≥30bp)的频度向量的稀疏性,基于统计模型的短k-tuple方法将不再适用。于是本论文针对不具备类别先验知识的微生物群落样本,提出基于长k-tuple特征的非监督聚类分析方法,将文本主题挖掘的度量方法用于特征抽取,进行微生物群落样本的距离度量。  本论文设计了四组实验,实验结果表明:①本文提出的基于长k-tuple序列特征的方法能很好地识别高度相似的基因组的组间关系并把它们分开;②长k-tuple序列特征的方法的性能优于基于统计模型的短k-tuple方法的性能。当k≥12时,短k-tuple频度统计的方法将不再适用,而k=20-40bp时,长k-tuple序列特征的方法获得更好的分组结果;③长k-tuple序列特征的方法对测序平台/协议具有鲁棒性,但是短k-tuple的方法对测序平台/协议很敏感;④本文通过对聚类有效的40-tuple的生物信息分析,获得了一些有意义且可信的生物结果。  针对宏基因组测序数据,本文整合构建了微生物群落生物多样性分析平台,分析物种组成和基因功能。该平台不仅可以对微生物群落的全宏基因组高通量测序数据进行分析,还可以处理特异长k-tuple序列的生物分析。
其他文献
随着经济的快速发展和人民生活水平的普遍提高,中国北方冬季集中供热面积也在不断的加大,针对我国目前日益严重的环境和能源问题,国家采取了种种措施倡导保护环境和节约能源
许多重要的物理、力学学科,其基本的数学模型都是偏微分方程。偏微分方程是数学中最为活跃的分支之一,是数学和物理中很多内容的基础,有助于人们从微观到宏观对物质运动规律进行
本文通过分析大学英语改革的内容、非英语专业学生学习英语的现状、影响学生英语水平提高的因素等提出一些学习英语的方法,包括培养学生自身对英语学习的兴趣、自主地学习英
处于湘鄂川黔四省交界的武陵山区由于受地域影响,交通欠发达,经济文化相对落后.笔者就本地区英语口语的现状在湖北民族学院进行了调查,结果发现,相当比例的英语专业学生对口
我从一九八一年做常州市太滆乡通讯员以来,先后被上级新闻单位录用稿件二百二十多篇,没有一篇失实。我的做法是:一、耳闻还要目睹。我采写稿件时,总要对报道的人和事进行一
《新华日报》主办的新闻业务刊物《新闻通讯》主动向我们市县报纸靠拢,介绍和交流我们的办报经验,我作为一个中小城市报纸的一个新闻工作者,感到由衷地欣慰和感谢。《新闻通
织物的疵点检测是纺织品质量控制的重要环节,目前主要还是由人工来实现,面临的问题是:随着技术的进步,市场对织物质量检测的要求也越来越高,传统的人工检测方法存在劳动强度
1.药片药片分糖衣片、非糖衣片。糖衣片如果出现受潮、变色、发霉、衣层裂开、溶化等现象就不能服用;非糖衣片,如原来是白色,变为黄色,或发黑、有斑点、松散、潮解等,就不能
车牌自动识别技术在智能交通领域扮演了越来越重要的角色,是目前智能交通管理的重要研究方向。随着社会对于车辆管理系统性能要求的日益提高和交通环境的日益复杂,现有的车牌
据报道,最近国外有个展览,展览了一块斑驳的石头,吸引了前来的观众,石头旁边的木牌上写着这样几个醒目的字:“请摸一摸月亮。”原来这块石头并非司空见惯的石头,而是宇航员