论文部分内容阅读
微生物群落是广泛存在于生态系统中的一种结构单位和功能单位。微生物群落的比较分析,一直是生态学研究的重点。高通量测序为微生物群落的比较提供了一种强有力的技术手段。通过高通量测序技术,来自环境中的微生物群落可以产生数十亿条长度为100-300bp随机读段,从而获得微生物群落的宏基因组测序数据。 不依赖已有的参考数据库进行微生物群落比较分析时,无需配准的基于短k-tuple(k=2-10bp)的方法可以很好地描述一个群落中所有短k-tuple的频度统计分布,但无法获取群落内部细致的生物信息。通常而言,k-tuple越长,那么它包含的生物信息就越丰富。然而,因为长k-tuple(k≥30bp)的频度向量的稀疏性,基于统计模型的短k-tuple方法将不再适用。于是本论文针对不具备类别先验知识的微生物群落样本,提出基于长k-tuple特征的非监督聚类分析方法,将文本主题挖掘的度量方法用于特征抽取,进行微生物群落样本的距离度量。 本论文设计了四组实验,实验结果表明:①本文提出的基于长k-tuple序列特征的方法能很好地识别高度相似的基因组的组间关系并把它们分开;②长k-tuple序列特征的方法的性能优于基于统计模型的短k-tuple方法的性能。当k≥12时,短k-tuple频度统计的方法将不再适用,而k=20-40bp时,长k-tuple序列特征的方法获得更好的分组结果;③长k-tuple序列特征的方法对测序平台/协议具有鲁棒性,但是短k-tuple的方法对测序平台/协议很敏感;④本文通过对聚类有效的40-tuple的生物信息分析,获得了一些有意义且可信的生物结果。 针对宏基因组测序数据,本文整合构建了微生物群落生物多样性分析平台,分析物种组成和基因功能。该平台不仅可以对微生物群落的全宏基因组高通量测序数据进行分析,还可以处理特异长k-tuple序列的生物分析。