论文部分内容阅读
近年来,传感器技术、机器人技术及各种成像设备的不断发展,科研工作者经过不断探索和努力,开发出了各种自动化、高精度、高通量的表型组学分析平台。这些平台集高通量的成像系统、高精准的传感器系统、全自动化的机器人辅助及强大的数据分析处理软件为一体,能够对植株进行高通量、无损伤、全自动化的表型采集和数据分析,可以对植株的根叶形态、生物量、产量及胁迫应激反应等众多性状进行检测和分析。虽然这些平台在一定程度上推动了表型组学的发展,但是还存在着一些尚待解决的问题。一方面,高通量的表型筛选平台是否能够有效的进行突变体筛选工作,尚未有相关报道对此进行有效的评价。另外,目前只有少数科研工作者正尝试建立基于高通量成像系统的植物表型与基因型相对应的评估体系。如何对“高通量”的表型组学分析平台所获得的“大数据”进行有效分析并获得有用的“生物信息”已然成为解决这些难题的关键。基于这些问题,本研究设计了人机识别比较实验,分别使用传统肉眼观测(人)和高通量表型观测系统(机)两种方式对拟南芥群体样本进行突变体甄别。肉眼筛选方式采用传统的方式进行,机器测量组使用实验室高通量植物成像系统(Scanalyzer HTS)进行,所获得的海量数据使用PCA(Principal component analysis)、散点矩阵聚类、生长曲线等统计学分析,对两种方式进行突变体甄别的准确率、假阳性率、假阴性率进行了比较。结合已有的突变体信息和人机实验结果最终确定一套行之有效的突变体表型筛选体系。人机实验研究,探索了一条表型组学大数据处理的分析路线:首先将HTS获得的表型组学大数据进行降维处理,压缩数据量;利用PCA分析及基于logistic函数的植物生长曲线分析,并结合散点矩阵聚类分析对植物表型突变体进行甄别。利用这套体系可以将80%以上的拟南芥表型突变体从众多植株中识别出来。这一体系可以使用机器筛选剔除大部分非突变体植株,然后再用肉眼进行突变体筛选。这些结果为正在开展的重离子诱变育种、基于高通量表型组学大数据背景下的作物育种等工作奠定了实验和理论基础。人机比较实验研究表明:(1)随着聚类分析中置信区间水平的增加(从95%增至99.9%),机器识别突变体的准确率逐渐降低,假阳性率逐渐降低,假阴性率逐渐增加。(2)95%置信区间以内,机器的准确率均高于肉眼筛选,假阴性率均低于肉眼筛选。这说明在某种程度上机器可以替代人进行突变体甄别,与人眼识别相比不容易遗漏突变体。(3)机器的假阳性率值在不同置信区间均高于肉眼识别,说明与耗时耗力的肉眼筛选相比,使用机器可以在相对较短时间内实现大批量的拟南芥突变体筛选过程,并且在一定范围内可以缩小突变体的范围,提高突变体筛选效率。因此,可以先使用机器筛选剔除大部分非突变体植株,然后再使用肉眼筛选进行突变体筛选,这将大大提高筛选效率。(4)研究发现,同一类型突变体种植在不同位置,肉眼将所有位置突变体识别出来的准确率为16.7%,而机器为50%。然而肉眼有50%的概率只识别出两个位置中的一个,而机器的识别概率却为16.7%。这说明与具有一定主观性的传统肉眼筛选方式相比,机器筛选更为准确,其甄别突变体的准确率更高,能力更强。