论文部分内容阅读
在工业和医学领域,细菌都是一种重要微生物,而研究其生长曲线特征对了解和利用微生物具有重要的指导意义。生长曲线的分析通常是利用数学模型来拟合细菌生长,估算出细菌的各种生长参数,并以此研究微生物的生长规律。研究发现,即使有些菌株的生长趋势相似,不同的菌株间也存在着生长差异,因此在分析过程中需要改进已有的数学模型或者开发出新模型,进一步优化分析方法,筛选并获得有意义的生物学相关性的差异。此外,由于近几年人工智能的发展,使得机器学习算法被广泛应用于科学研究的多个领域,特别是生物学范畴的多个研究方向。在此背景下,本文利用机器学习中的聚类分析算法,初步探究了作为模式微生物的大肠杆菌(Escherichia coli)及其基因组变异菌株在不同培养基条件下生长曲线聚类分析的可行性。首先,本文基于两个变量,收集了一系列的生长曲线。变量一是菌株的基因组长度。本文选择了基因组长度递减的一系列的变异菌株,用来探究基因组变化对菌株生长模式的影响。变量二是培养菌株的培养基。本文用三种不同成分的培养基,分析不同培养基对细菌生长模式的影响。然后本文通过Logistic模型分别拟合了每种培养基条件下不同长度基因组细菌的生长曲线,并分析模型拟合中得到的各参数的生物学意义。由于Logistic模型对大肠杆菌生长曲线衰亡期的拟合度程度不佳,为此本研究改进了Logistic模型。通过引入衰减率这一新参数,使其更好了拟合了大肠杆菌实际的生长曲线。与原始Logistic模型相比,改进后的模型拟合生长曲线有更好的拟合优度以及更低的残差平方和。利用该改进后的Logistic模型分析基因组长度递减的大肠杆菌生长曲线的数据发现了衰减率和大肠杆菌基因组长度之间具有负相关性。该发现对研究不同长度基因组细菌的生长模式提供了新模型拟合的方法论。此外,为了验证不依赖细菌生长模型的聚类分析的可行性,本研究首次对大肠杆菌生长曲线使用了时间序列聚类分析,并且使用动态时间规整算法(DTW)和导数动态时间规整算法(DDTW)计算大肠杆菌生长曲线之间的相似度。根据相似度执行自下而上的层次聚类。在此基础上,研究中综合使用四种常用的聚类评价指标评价聚类结果来选择出最优的聚类结果。结果表明,培养基相同的生长曲线可以有效地划分到相同的簇。另外,为了使聚类评价指标选择的最优聚类结果更加符合生长曲线的实际生物学特征,本研究中还提出一个新的评价标准。根据这一新标准,获得的聚类结果具有更高的准确性。生长曲线的合理聚类表明,DTW和DDTW结合层次聚类算法可用于大肠杆菌细菌生长分析。聚类结果表明,培养基确定了大肠杆菌的某些特定生长模式。与基因组相比,培养基对大肠杆菌生长曲线的影响具有更高的优先级。本研究呈现了聚类方法用于细菌生长曲线聚类的可行性,为分析其他细菌生长曲线提供了技术参考。