论文部分内容阅读
大数据是畜牧界下一个大事件。这些概念具有很大的潜力,不过从长远来看,养猪生产者究竟如何受益还是个未知数。本文总结了育种领域的机遇。
中图分类号:S813 文献标志码:C 文章编号:1001-0769(2017)10-0026-03
最近,一场专为动物遗传学家召开的论坛会在荷兰举行,会议主题是“对基因组学时代说再见,欢迎猪数据新时代”。会议围绕从精准农业到大数据分析的新技术。两个不同的快速变化的领域将彻底改变我们要改良农场动物基因的方式。这仅仅是一个吸引人们注意力的有趣标题还是因为这些新技术和新方法某些事将会真正发生改变?大数据是否会改变遗传改良计划运作的方式从而改变基因的作用?
1 大数据分析和机器学习
大数据分析是探索和分析各种类型和来源的、结构化和非结构化的大型数据集的学科,以揭示有助于将这些数据转换为相关信息和预测值的特性和相关性。阐明可用作未来管理和业务决策信息的特性。
机器学习是一种可以借助运算法则通过输入数据来开发的人工智能。数据用于开发智能运算法则,以进行预测、检测异常等。众所周知的应用程序是欺诈检测、电子邮件中的垃圾邮件过滤器。不过,在过去十年中,越来越多的农业应用程序正处于开发中。
2 精准农业和精准畜禽养殖(Precision Livestock Farming,PLF)
精准农业将会大幅增加信息量。这可以通过测量气候和环境条件的智能传感器来完成。在农作物耕作方面,它是将全球定位系统(Global Positioning System,GPS)和地理信息系统(Geographical Information System,GIS)结合起来,并增加可用于疾病精准治疗、施肥或预测收获数量和质量的信息。如果广泛应用,信息可以在该地区内共享,并且可以创造知识来提高生产效率和可持续性。同样,在动物生产中,以更结构化的方式收集日常测量数据,可以提供优化生产链的新途径。尽管许多设备有能力每隔1 s或1 min收集一次测量数据,但收集的信息中大部分尚未充分发挥其全部潜力。精准农业是对不同来源的这些信息进行测量、存储和利用。
例如,精准农业在畜牧业生产中可以开发精准饲养。其他信息则可以通过连续监测动物的位置和活动状况或应用可测量內在身体参数的生物传感器来进行收集。此外,传感器可以用于详细监测圈舍的状况,如温度、湿度等。将有关动物(基因型)和饲料的更详细资料综合起来后所形成的知识可以获得更准确的饲喂策略。精准饲喂也可以针对群体或个体动物进行。此外,一旦详细的信息得到了分析并用于优化农场生产效率,其他措施如精准治疗(例如兽医)和精准管理(例如屠宰管理)都将能够顺理成章地进行。将所有来源的信息结合起来会产生新的见解。一旦这种方案启动,它可以扩大到探索能够产生更多附加值或更高品质的方法。
3 编程马拉松(Hackathons)
大数据分析具有多学科特性。一旦产生更多的数据和见解,它会将各种学科汇集起来。通过学科间的合作,探究多学科问题,最后产生真正的新见解和附加值。畜牧业中的例子包括与某些基因型和疾病治疗相关的饲喂上的特定行为,这些行为似乎与饲喂方案相互作用。各学科已开发了自己的处理和优化事物的方法,但在大多数情况下,它们对于其他学科中发生的事情知之甚少。
目前尚未开发出更为典型且有潜力的见解,因为研究者很难从不同的学科获得专业的知识。在这方面,人们将受益于大数据分析技术,快速揭示各领域交叉点上的特性,通过多学科团队产生知识和见解。现在“编程马拉松”是受大数据发展驱动的一种新现象,多学科团队在这方面相互竞争以解决某一问题。它将来自不同学科的数据分析师和专家组合在一起,并为他们提供不同的数据源,以探索多学科问题的解决方案。
4 数据存储容量和大数据分析
测量并不总是最困难的部分,但重要的是测量结果要得到正确的存储并进行合理的处理,以使其能用于将来的分析。大数据科学可以提供存储和分析的解决方案。现在,结构化和非结构化数据可以轻松地存储在云端。
云端基础架构可供利用,因此可以很容易地扩展存储和计算资源。它有助于将各种信息流合并在一起并进行分析。启用的门槛很低,但是成本必须得到监控。对于精准农业,它有助于以各种格式和测量频率的方式存储和分析各种来源的信息。
5 预测模型和机器学习
大数据分析的一个重要支柱是预测部分。检测历史数据的特性可用于预测未来的价值。“随机森林”法和“支持向量机学习”法是大数据中广泛应用的预测方法的例子。
遗传方案也偏向于对遗传价值的预测。它们使用各种技术,如最佳线性无偏预测(Best Linear Unbiased Predictions,BLUP)。为动物遗传增加的特殊工具是关于处理动物间的亲缘关系。由于目标和模式有一些相似之处,预计在不久的将来会进行持续的相互交流。
6 大数据分析与基因组BLUP方法
在过去十年中基因组选择被广泛应用于预测动物育种中的遗传价值。它基于对精确了解育种值的参考动物进行基因分型,以获取大量的遗传标记,如均匀分布在染色体上的单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)。在大多数物种中,通常应用60 000个SNPs至600 000个SNPs的SNP芯片。
最后,根据这些参考动物,能够得到表型和基因组之间关系的估计值,并用于高精度预测没有大量信息的幼龄动物的基因组育种值。
在各种模拟研究中,常规方法如基因组BLUP(Genomic BLUP,GBLUP)已经与“随机森林”法和“支持向量机学习”法之类的技术进行比较,以预测遗传价值。有趣的是,这两种方法的准确性都非常接近。传统的GBLUP方法在某些情况下非常快,但它似乎是在完全不同的环境中开发不同的技术,可以用于预测基于与遗传标记有关的遗传价值。 预计未来几年,利用这两方面提供的最佳方法将会开发出杂交模型。这有望促进各种数据源的使用,并提高遗传育种价值的准确性。理论上这将加快育种方案的遗传进展,并使育种目标与实际市场要求之间能够更精准匹配。
7 从预测到指定
动物生产期间可使用的知识越详细,在预测分析中直接使用这些信息就越容易。事实上,人们就可以高精度地预测未来会发生什么。当检测到参数的某些特性时,它们可能与现有问题、疾病或最高产量具有很高的相关性。一旦提前获知这些信息,对其进行预测就成为合乎逻辑的发展步骤。当亚临床疾病在早期被发现时,治疗可以确保该疾病不会复发。最有意义的是通过基因组测序可以了解某个动物的完整遗传背景,并且使用该信息来检测在其他情况下与特殊情况相关的模式。
在这种情况下,精准治疗和精准饲喂可以让单个动物有最好的产出。这可以防止动物的生长失去平衡,出现缺陷或发生疾病。此外,治疗和饲喂将完全能够根据动物的遗传和环境背景进行。
另外,定期对一小群动物进行基因分型以获取有限数量的遗传差异(SNPs),可以揭示新一代动物具有与有较高食欲或对某些腹泻株有较高抗性的动物相一致的不同遗传组成。SNP的这些特性与较高的生产性能相关,但还可用于调整某些疾病的治疗。
无论它是更详细的遗传知识、气候还是环境条件,将这些知识直接纳入预测模型,来获得生产性能下降或即将到来的疾病的警報,这将有助于更充分地采取相关措施。直接连接任何指定信息和测量其有效性将为持续改良腾出空间。它将成为可持续生产的基础,并将帮助农民充分利用其遗传、饲料和农场环境。
8 未来几年基因组学所需的数据存储空间
基因组学就属于大数据。如果一个领域可以真正创造大量的数据,并以指数级的方式增加,那么这个领域就是基因组学。过去十年的重点是单核苷酸多态性,这些是出现在群体中的DNA上单碱基对的差异。有时它们与表型差异有关,有时候它们没有。基因组实验室以非常快的速度从对60 000~10 000 000个SNPs进行基因分析发展到现在对基因组进行全部测序。当然,人类基因组学发展最快。
根据E. Hayden于2015年在Nature发表的一篇文章,到2025年,预计2亿~20亿人的基因组将完成测序。这将产生2~40艾字节(1艾字节=1 018字节)的数据存储需求,并将使人类基因组学数据储存的年增长率超过YouTube和Twitter的。当然,动物基因组学的发展预计将紧跟人类基因组学的发展,但是速度将会放缓。
9 未来该何去何从
我们将在未来十年内看到基因组学和大数据分析的巨大发展。基因分型的成本将下降,因此SNP芯片的利用将大幅增长。实际上全基因组测序成本似乎都将会处于一个低价位水平上,因此将可以提供非常详细的遗传信息。同时,分析成本大幅下降,并且每个需要它的人都可以利用高速计算机通过云端获得。与此同时,云技术将会使数据存储容量快速可用,并且可以对所有类型的数据流进行修改。更多的数据、更快的分析、更高的预测技术……总之,这将提高准确性,并使遗传计划更接近市场。
可以想象,在效率和质量方面将有巨大的发展。最终,这会导致遗传学和其他学科更加透明化。这为更详细地面向客户的调整打开了大门,如精准饲喂、精准的兽医治疗和量身定制的遗传学。更多的数据和更详细的分析将为我们提供更多可持续发展和未来生产效率的信息。□□
原题名:Will big data change the future of pig genetics(英文)
原作者:Benny van Haandel
中图分类号:S813 文献标志码:C 文章编号:1001-0769(2017)10-0026-03
最近,一场专为动物遗传学家召开的论坛会在荷兰举行,会议主题是“对基因组学时代说再见,欢迎猪数据新时代”。会议围绕从精准农业到大数据分析的新技术。两个不同的快速变化的领域将彻底改变我们要改良农场动物基因的方式。这仅仅是一个吸引人们注意力的有趣标题还是因为这些新技术和新方法某些事将会真正发生改变?大数据是否会改变遗传改良计划运作的方式从而改变基因的作用?
1 大数据分析和机器学习
大数据分析是探索和分析各种类型和来源的、结构化和非结构化的大型数据集的学科,以揭示有助于将这些数据转换为相关信息和预测值的特性和相关性。阐明可用作未来管理和业务决策信息的特性。
机器学习是一种可以借助运算法则通过输入数据来开发的人工智能。数据用于开发智能运算法则,以进行预测、检测异常等。众所周知的应用程序是欺诈检测、电子邮件中的垃圾邮件过滤器。不过,在过去十年中,越来越多的农业应用程序正处于开发中。
2 精准农业和精准畜禽养殖(Precision Livestock Farming,PLF)
精准农业将会大幅增加信息量。这可以通过测量气候和环境条件的智能传感器来完成。在农作物耕作方面,它是将全球定位系统(Global Positioning System,GPS)和地理信息系统(Geographical Information System,GIS)结合起来,并增加可用于疾病精准治疗、施肥或预测收获数量和质量的信息。如果广泛应用,信息可以在该地区内共享,并且可以创造知识来提高生产效率和可持续性。同样,在动物生产中,以更结构化的方式收集日常测量数据,可以提供优化生产链的新途径。尽管许多设备有能力每隔1 s或1 min收集一次测量数据,但收集的信息中大部分尚未充分发挥其全部潜力。精准农业是对不同来源的这些信息进行测量、存储和利用。
例如,精准农业在畜牧业生产中可以开发精准饲养。其他信息则可以通过连续监测动物的位置和活动状况或应用可测量內在身体参数的生物传感器来进行收集。此外,传感器可以用于详细监测圈舍的状况,如温度、湿度等。将有关动物(基因型)和饲料的更详细资料综合起来后所形成的知识可以获得更准确的饲喂策略。精准饲喂也可以针对群体或个体动物进行。此外,一旦详细的信息得到了分析并用于优化农场生产效率,其他措施如精准治疗(例如兽医)和精准管理(例如屠宰管理)都将能够顺理成章地进行。将所有来源的信息结合起来会产生新的见解。一旦这种方案启动,它可以扩大到探索能够产生更多附加值或更高品质的方法。
3 编程马拉松(Hackathons)
大数据分析具有多学科特性。一旦产生更多的数据和见解,它会将各种学科汇集起来。通过学科间的合作,探究多学科问题,最后产生真正的新见解和附加值。畜牧业中的例子包括与某些基因型和疾病治疗相关的饲喂上的特定行为,这些行为似乎与饲喂方案相互作用。各学科已开发了自己的处理和优化事物的方法,但在大多数情况下,它们对于其他学科中发生的事情知之甚少。
目前尚未开发出更为典型且有潜力的见解,因为研究者很难从不同的学科获得专业的知识。在这方面,人们将受益于大数据分析技术,快速揭示各领域交叉点上的特性,通过多学科团队产生知识和见解。现在“编程马拉松”是受大数据发展驱动的一种新现象,多学科团队在这方面相互竞争以解决某一问题。它将来自不同学科的数据分析师和专家组合在一起,并为他们提供不同的数据源,以探索多学科问题的解决方案。
4 数据存储容量和大数据分析
测量并不总是最困难的部分,但重要的是测量结果要得到正确的存储并进行合理的处理,以使其能用于将来的分析。大数据科学可以提供存储和分析的解决方案。现在,结构化和非结构化数据可以轻松地存储在云端。
云端基础架构可供利用,因此可以很容易地扩展存储和计算资源。它有助于将各种信息流合并在一起并进行分析。启用的门槛很低,但是成本必须得到监控。对于精准农业,它有助于以各种格式和测量频率的方式存储和分析各种来源的信息。
5 预测模型和机器学习
大数据分析的一个重要支柱是预测部分。检测历史数据的特性可用于预测未来的价值。“随机森林”法和“支持向量机学习”法是大数据中广泛应用的预测方法的例子。
遗传方案也偏向于对遗传价值的预测。它们使用各种技术,如最佳线性无偏预测(Best Linear Unbiased Predictions,BLUP)。为动物遗传增加的特殊工具是关于处理动物间的亲缘关系。由于目标和模式有一些相似之处,预计在不久的将来会进行持续的相互交流。
6 大数据分析与基因组BLUP方法
在过去十年中基因组选择被广泛应用于预测动物育种中的遗传价值。它基于对精确了解育种值的参考动物进行基因分型,以获取大量的遗传标记,如均匀分布在染色体上的单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)。在大多数物种中,通常应用60 000个SNPs至600 000个SNPs的SNP芯片。
最后,根据这些参考动物,能够得到表型和基因组之间关系的估计值,并用于高精度预测没有大量信息的幼龄动物的基因组育种值。
在各种模拟研究中,常规方法如基因组BLUP(Genomic BLUP,GBLUP)已经与“随机森林”法和“支持向量机学习”法之类的技术进行比较,以预测遗传价值。有趣的是,这两种方法的准确性都非常接近。传统的GBLUP方法在某些情况下非常快,但它似乎是在完全不同的环境中开发不同的技术,可以用于预测基于与遗传标记有关的遗传价值。 预计未来几年,利用这两方面提供的最佳方法将会开发出杂交模型。这有望促进各种数据源的使用,并提高遗传育种价值的准确性。理论上这将加快育种方案的遗传进展,并使育种目标与实际市场要求之间能够更精准匹配。
7 从预测到指定
动物生产期间可使用的知识越详细,在预测分析中直接使用这些信息就越容易。事实上,人们就可以高精度地预测未来会发生什么。当检测到参数的某些特性时,它们可能与现有问题、疾病或最高产量具有很高的相关性。一旦提前获知这些信息,对其进行预测就成为合乎逻辑的发展步骤。当亚临床疾病在早期被发现时,治疗可以确保该疾病不会复发。最有意义的是通过基因组测序可以了解某个动物的完整遗传背景,并且使用该信息来检测在其他情况下与特殊情况相关的模式。
在这种情况下,精准治疗和精准饲喂可以让单个动物有最好的产出。这可以防止动物的生长失去平衡,出现缺陷或发生疾病。此外,治疗和饲喂将完全能够根据动物的遗传和环境背景进行。
另外,定期对一小群动物进行基因分型以获取有限数量的遗传差异(SNPs),可以揭示新一代动物具有与有较高食欲或对某些腹泻株有较高抗性的动物相一致的不同遗传组成。SNP的这些特性与较高的生产性能相关,但还可用于调整某些疾病的治疗。
无论它是更详细的遗传知识、气候还是环境条件,将这些知识直接纳入预测模型,来获得生产性能下降或即将到来的疾病的警報,这将有助于更充分地采取相关措施。直接连接任何指定信息和测量其有效性将为持续改良腾出空间。它将成为可持续生产的基础,并将帮助农民充分利用其遗传、饲料和农场环境。
8 未来几年基因组学所需的数据存储空间
基因组学就属于大数据。如果一个领域可以真正创造大量的数据,并以指数级的方式增加,那么这个领域就是基因组学。过去十年的重点是单核苷酸多态性,这些是出现在群体中的DNA上单碱基对的差异。有时它们与表型差异有关,有时候它们没有。基因组实验室以非常快的速度从对60 000~10 000 000个SNPs进行基因分析发展到现在对基因组进行全部测序。当然,人类基因组学发展最快。
根据E. Hayden于2015年在Nature发表的一篇文章,到2025年,预计2亿~20亿人的基因组将完成测序。这将产生2~40艾字节(1艾字节=1 018字节)的数据存储需求,并将使人类基因组学数据储存的年增长率超过YouTube和Twitter的。当然,动物基因组学的发展预计将紧跟人类基因组学的发展,但是速度将会放缓。
9 未来该何去何从
我们将在未来十年内看到基因组学和大数据分析的巨大发展。基因分型的成本将下降,因此SNP芯片的利用将大幅增长。实际上全基因组测序成本似乎都将会处于一个低价位水平上,因此将可以提供非常详细的遗传信息。同时,分析成本大幅下降,并且每个需要它的人都可以利用高速计算机通过云端获得。与此同时,云技术将会使数据存储容量快速可用,并且可以对所有类型的数据流进行修改。更多的数据、更快的分析、更高的预测技术……总之,这将提高准确性,并使遗传计划更接近市场。
可以想象,在效率和质量方面将有巨大的发展。最终,这会导致遗传学和其他学科更加透明化。这为更详细地面向客户的调整打开了大门,如精准饲喂、精准的兽医治疗和量身定制的遗传学。更多的数据和更详细的分析将为我们提供更多可持续发展和未来生产效率的信息。□□
原题名:Will big data change the future of pig genetics(英文)
原作者:Benny van Haandel