论文部分内容阅读
感染是指病毒、细菌、真菌或寄生虫等病原体侵入宿主所引起的局部组织或全身性炎症反应。临床上不同类型的病原体感染可以针对性的采用不同的治疗策略,如细菌感染可以给予抗生素治疗、真菌感染可以给予抗真菌药物治疗等。因此,准确的病原体感染类型的判别对于感染性疾病的临床治疗具有重要意义。尽管传统的基于形态学、免疫学、分子生物学等的病原体检测方法已经在临床感染类型的判别方面得到广泛应用,近年来基于宿主基因表达谱并利用机器学习方法发现区分不同类型病原体感染的生物标记物从而区分感染类型的研究成为一个新兴的发展方向。这类基于生物信息学的间接诊断方法可以为传统的直接检测手段提供辅助和补充。防御素是有助于宿主防御细菌、真菌和病毒感染的内源性抗微生物多肽。不同的防御素已被证实在先天免疫中对宿主抵御细菌或病毒的感染发挥着重要作用。因此,本研究尝试通过分析防御素及其相关基因在感染过程中的表达来区分病毒感染和细菌感染。首先,我们在国际基因表达数据库(GEO)中筛选含有一种以上的感染类型的表达谱样本,并进一步从中选定了 4个涉及防御素及相关基因表达谱的数据集。其中,我们选取防御素表达值最多、质量最好的数据集作为训练数据集,其他三个的作为验证数据集。然后,我们对每个数据集进行数据标准化、缺失值处理和数据整合等数据预处理操作,再根据探针的表达值估计防御素基因在每个样本的表达值,并对训练数据集进行差异基因表达分析,得到49个细菌病毒感染的差异表达基因。最后,针对这些基因,我们分别使用了 K-邻近算法、贝叶斯分类、支持向量机、决策树和随机森林等五种机器学习方法定义了五种分类函数,并根据留一交叉验证的结果调整参数,得到最优的分类模型。我们利用这五种分类方法评估了49个基因的基因集在四个数据集的分类效果,结果表明五种分类方法都可以很好的区分细菌或病毒感染,其中随机森林方法表现最佳。我们还将本研究与之前的报道发现的生物标记物的分类效果进行了比较,结果表明,本研究的分类效果优于其中一部分报道,和另一部分报道效果相当。此外,根据随机森林算法中分类效果的贡献程度,我们又进一步将49个基因集缩小到仅包含10个基因的基因集,分析结果表明这10个基因的基因集同样可以较好的区分病毒或细菌感染。准确判别细菌和病毒感染具有重要的临床价值,可以帮助临床医生选择恰当治疗方法。因此,找到能准确判别细菌或病毒感染的生物标志物具有重要意义。本研究在国际上首次尝试从防御素的角度出发,建立了基于防御素及相关基因表达谱的病原体感染类型判别机器学习新方法,可以为传统的临床病原体检测技术提供有益的补充。同时,本研究也从侧面验证了不同防御素在细菌或病毒感染过程中可能发挥了重要作用,为应用某些特定防御素基因作为生物标记物判别细菌或病毒感染提供了线索。尽管本研究目前局限于使用基于基因芯片的表达谱数据,但是本研究的基本策略和相关机器学习模型同样可以进一步扩展应用于新一代测序技术所产生的表达谱数据,为未来潜在的临床应用提供了可能。