论文部分内容阅读
摘要 利用神经网络模型研究了品种产量与其他性状的关系,发现神经网络模型在不同次训练结果中的平均绝对误差和平均绝对相对误差的变异系数较小,但在不同次训练结果中的各个自变量相对重要性的变异系数较大。因此,神经网络较适合用于产量的预测,在用于研究各个性状对产量的相对重要性时,应采取多次重复求平均值的方法,以减少分析结果的误差。在所有的性状中,穗粗、穗长对产量的相对重要性最大,随后是百粒重、株高和生育期等。同时,还分析了使产量最大时各个性状的最佳组合。该研究结果对黄淮海地区玉米育种目标的制定具有一定的参考价值。
关键词 玉米;性状;神经网络模型
中图分类号 S126 文献标识码 A
文章编号 0517-6611(2019)08-0228-03
doi:10.3969/j.issn.0517-6611.2019.08.060
Abstract In order to solve the problems of low level of information and lack of depth mining of experimental data in maize breeding, the relation of yield and other characters was conducted in this study by using neural network model. It was showed that the CV (the coefficient of variation) of the mean absolute error and the mean absolute relative error was small, and the CV of relative importance of each independent variable was larger. Therefore, the neural network model was suitable for production forecast. When applying in the researches on relative importance of each trait to yield, we should calculate the average by repetition, in order to to reduce the error of results. Among all the traits, ear diameter and ear length showed the greatest relative importance to yield, followed with 100grain weight, plant height and growth period. Meanwhile, the optimal combination of the traits for the maximum yield was studied. The research results had certain reference value for the formulation of maize breeding targets in Huanghuaihai Area.
Key words Maize;Trait;Neural network model
神經网络模型是一个简单通用的可模拟复杂非线性关系的计算机模型,只需要训练样木,不需要建模或任何假定,因而弥补了传统的回归模型缺乏对非线性问题研究能力的问题,并在很多领域得到广泛的应用。提高产量是作物育种的首要目标。在玉米育种中,了解产量及其相关性状之间的关系是十分必要的。但各种相关性状对产量的贡献大小不一,因子间还存在着复杂的相互联系和影响,这就给育种工作带来了许多困难。研究人员从利用相关、回归、通径、灰色关联等不同方法对影响玉米产量的因素和性状进行了探讨[1-3],但由于所在地区或所用玉米品种的不同,以及研究方法的不同,研究结果很不一致。同时,目前在其他领域逐步得到广泛应用的计算机神经网络等分析方法,在玉米育种试验数据的分析中应用不够。为了解决目前玉米育种试验数据得不到有效分析的实际问题,该研究将应用各种计算机模型对玉米品种产量与其他性状之间的关系进行模拟,探讨不同性状对产量的相对重要性,以及在最高产量水平下各种性状的最佳组合,以期为玉米育种目标和育种策略的制定提供指导和帮助。
1 材料与方法
1.1 试验数据
试验数据为2015年黄淮海地区26个试验点的玉米区试的各种性状数据资料,包括来自不同育种单位的80个玉米品种。品种的选取兼顾了不同的育种单位和不同种质基础,试验点则涵盖了黄淮海地区的各种生态类型,因此试验材料和种植地点都具有较好的代表性。数据共计1 420组,每组包括生育期性状,株高、穗位等植株性状,倒折株数、空秆株数、病指数等抗逆性性状,以及穗粗、穗长、秃尖、穗行数、百粒重和产量等相关性状。
1.2 分析方法
以产量为因变量,其他性状为协变量,利用SPSS 22.0进行多层感知器神经网络模型的分析。由于各个性状的原始数据的量纲和级别不同,首先要进行标准化处理。多层感知器神经网络模型的实际应用效果受训练样本数量、模型结构等因素影响较大。因此,首先还要进行隐藏层数和训练样本/检验样本比例的优选。隐藏层数一般设置为1或2层,训练样本/检验样本的比例设置9∶1、8∶2、7∶3、6∶4、5∶5、4∶6、3∶7、2∶8、1∶9共9个处理。由于神经网络存在多解问题,因此有必要对不同次训练结果之间预测精度的变异性以及各个自变量相对重要性的变异性进行研究。最后分析不同性状对产量的相对重要性,以及在最高产量水平下各种性状的最佳组合。 2 结果与分析
2.1 神经网络模型结构的优选
隐藏层数和训练与检验样本分区比率对预测误差的影响见图1。从图1可以看出,当训练与检验样本分区比率≥7∶3时,预测误差较小,而且此时隐藏层数对预测误差影响不大。若训练与检验样本分区比率<7∶3,随着比率的减小,误差逐渐增大,而且此时2层隐藏层比1层隐藏层的预测误差要大。可见,训练分区样本的数量较少会影响训练的效果。因此,该试验选用训练、检验和预测样本分区比率为5∶2∶3和1层隐藏层的网络结构进行模拟。建立的多重传感器神经网络模型含有1个隐藏层,输入层有10个神经元节点,即自变量个数,输出层有1个节点,隐藏层自动设置7个节点,构成一个10-7-1的神经网络模型。模型的基本情况见表1,系统自动生成的各个节点的权重系数见表2。
2.2 不同次训练结果的变异度分析
模拟结果中预测误差和自变量重要性的变异度比较见表3。从表3可以看出,不同次训练结果的平均绝对误差和平均绝对相对误差的变异系数较小,但不同次训练结果中各个自变量相对重要性的变异系数较大。因此,神经网络较适合用于进行产量的预测,在用于研究各个性状对产量的相对重要性时,应采取多次重复求平均值的方法,以减少分析结果的误差。
2.3 各个性状的相对重要性
神经网络模型预测的各种性状的相对重要性见图2。从图2可以看出,穗粗和穗长的相对重要性最高,其次是百粒重、株高和生育期,穗位和倒折株数的相对重要性中等,而秃尖、倾斜株数、病指数和穗行数的相对重要性较低。
2.4 各个性状的最佳组合
3种模型的预测结果中,产量最大时各个性状的最佳组合的结果基本一致,除了秃尖、倒折株数和空杆株数等性状的变异系数较大之外,其他性状的变异系数均较小,而这3个性状的取值都很小。产量最大时的各个性状的取值分别为生育期103 d左右、株高300 cm左右、穗位120 cm左右、倒折株数2~3株、空杆株数接近0株、穗粗5.6 cm、穗长20 cm、秃尖0.5 cm、穗行数16行、百粒重39 cm、病指数1.0。在该合下,预测的最高产量为9 750 kg/hm2左右。
3 结论与讨论
神经网络模型是近年来发展起来的一种变量关系模拟和预测方法,由于它具有良好的非线性映射能力和很强的自学习适应能力,因而为解决未知不确定性非线性关系问题提供了有效的方法[4]。这些模型对育种家确定不同环境下的育种目标、比较不同育种方法的优劣、设计育种的选择方案和优化策略开展分子辅助选择育种研究提供了强有力的辅助工具。然而,作物育种学是一门实践科学,育种方法的研究来源于育种实践的需要。在以后的研究中,计算机模拟应与育种实践紧密结合,不断发现并解决育种工作中存在的問题,才能真正为育种家服务。
玉米产量除受自然环境影响外,遗传因素也具有很重要地位,在玉米育种工作中,通过研究主要农艺性状及其与产量的相互关系,找出影响产量的主要因素,可以为优良杂交种的选育提供选择依据[5]。玉米产量是各农艺性状综合作用的结果,影响产量的因素很多,有些与产量关系密切,而有些作用较小[6-7]。对玉米杂交种主要农艺性状的遗传相关及其与产量的关系已有很多报道,前人大多利用各自不同的育种材料,基于一种方法进行研究,因此结果各不相同[8-9]。该研究发现,在所有的性状中,穗粗、穗长对产量的相对重要性最大,随后是百粒重、株高和生育期等,这与张泽民等[10] 、丁山等[11]和卓德众等[12]的研究结果基本一致。其次,研究还发现,产量最大时各个性状的最佳组合为生育期103 d左右、株高300 cm左右、穗位120 cm左右、倒折株数2~3株、空杆株数接近0株、穗粗5.6 cm、穗长20 cm、秃尖0.5 cm、穗行数16行、百粒重39 cm、病指数1.0等,这较符合玉米育种目标的常规认识和思路。刘帆等[13]、陈发波等[14]、闫海霞等[15]的结果与该研究也基本一致。针对特定的原始材料和黄淮海地区特殊的生态条件,对该玉米育种项目和黄淮海地区的玉米育种目标和育种策略的制定具有一定的参考价值。
参考文献
[1] 鲁珊,肖荷霞,毛彩云,等.玉米杂交种主要农艺性状的相关和通径分析[J].安徽农业科学,2017,45(21):26-27,58.
[2] 史新海,李可敬,孙为森,等.山东省不同年代玉米杂交种主要农艺性状演变规律的研究[J].玉米科学,2000,8(2):33-35.
[3] 李晓花,林永明,谢淑芳,等.玉米产量与主要农艺性状的灰色关联度分析[J].云南农业科技,2016(1):13-15.
[4] 焦李成,杨淑媛,刘芳,等.神经网络七十年:回顾与展望[J].计算机学报,2016,39(8):1697-1716.
[5] 佟屏亚.中国玉米生产的发展方向——质疑“超级玉米”“超高产”[J].农业科技通讯,2005(8):11-13.
[6] 崔俊明.新编玉米育种学[M].北京:中国农业科学技术出版社,2007:12-57.
[7] 周得宝,王娟,王五洲,等.夏玉米品系(种)的产量比较及主要农艺性状的关联度分析[J].安徽农业科学,2017,45(26):48-51,78.
[8] 何文昭.玉米产量和主要农艺性状杂种优势遗传分析[D].北京:中国农业科学院,2017.
[9] 史新海,赵格.山东省紧凑型玉米杂交种主要农艺性状对产量的影响及其演变规律的研究[J].玉米科学,2003,11(2):59-61,85.
[10] 张泽民,刘丰明,李雪英.河南省1963~1993年玉米杂交种籽粒产量及其组成性状的遗传增益[J].作物学报,1998,24(2):182-186.
[11] 丁山,郭去,宋军,等.玉米主要性状与产量的回归模型及相关分析[J].西南农业学报,2008,21(5):1226-1230.
[12] 卓德众,刘启华,郭红甫.灰色关联度分析法在玉米育种中的应用[J].玉米科学,1996,4(3):31-34.
[13] 刘帆,石海春,余学杰.玉米果穗主要性状与产量间的相关与通径分析[J].玉米科学,2005,13(3):17-20.
[14] 陈发波,杨克诚,荣廷昭,等.西南及四川区试玉米组合主要性状分析及育种对策探讨[J].玉米科学,2007,15(4):41-45.
[15] 闫海霞,柳家友,吴伟华,等.含非洲血缘玉米杂交种主要穗部性状与单株产量的相关及通径分析[J].杂粮作物,2007,27(6):379-381.
关键词 玉米;性状;神经网络模型
中图分类号 S126 文献标识码 A
文章编号 0517-6611(2019)08-0228-03
doi:10.3969/j.issn.0517-6611.2019.08.060
Abstract In order to solve the problems of low level of information and lack of depth mining of experimental data in maize breeding, the relation of yield and other characters was conducted in this study by using neural network model. It was showed that the CV (the coefficient of variation) of the mean absolute error and the mean absolute relative error was small, and the CV of relative importance of each independent variable was larger. Therefore, the neural network model was suitable for production forecast. When applying in the researches on relative importance of each trait to yield, we should calculate the average by repetition, in order to to reduce the error of results. Among all the traits, ear diameter and ear length showed the greatest relative importance to yield, followed with 100grain weight, plant height and growth period. Meanwhile, the optimal combination of the traits for the maximum yield was studied. The research results had certain reference value for the formulation of maize breeding targets in Huanghuaihai Area.
Key words Maize;Trait;Neural network model
神經网络模型是一个简单通用的可模拟复杂非线性关系的计算机模型,只需要训练样木,不需要建模或任何假定,因而弥补了传统的回归模型缺乏对非线性问题研究能力的问题,并在很多领域得到广泛的应用。提高产量是作物育种的首要目标。在玉米育种中,了解产量及其相关性状之间的关系是十分必要的。但各种相关性状对产量的贡献大小不一,因子间还存在着复杂的相互联系和影响,这就给育种工作带来了许多困难。研究人员从利用相关、回归、通径、灰色关联等不同方法对影响玉米产量的因素和性状进行了探讨[1-3],但由于所在地区或所用玉米品种的不同,以及研究方法的不同,研究结果很不一致。同时,目前在其他领域逐步得到广泛应用的计算机神经网络等分析方法,在玉米育种试验数据的分析中应用不够。为了解决目前玉米育种试验数据得不到有效分析的实际问题,该研究将应用各种计算机模型对玉米品种产量与其他性状之间的关系进行模拟,探讨不同性状对产量的相对重要性,以及在最高产量水平下各种性状的最佳组合,以期为玉米育种目标和育种策略的制定提供指导和帮助。
1 材料与方法
1.1 试验数据
试验数据为2015年黄淮海地区26个试验点的玉米区试的各种性状数据资料,包括来自不同育种单位的80个玉米品种。品种的选取兼顾了不同的育种单位和不同种质基础,试验点则涵盖了黄淮海地区的各种生态类型,因此试验材料和种植地点都具有较好的代表性。数据共计1 420组,每组包括生育期性状,株高、穗位等植株性状,倒折株数、空秆株数、病指数等抗逆性性状,以及穗粗、穗长、秃尖、穗行数、百粒重和产量等相关性状。
1.2 分析方法
以产量为因变量,其他性状为协变量,利用SPSS 22.0进行多层感知器神经网络模型的分析。由于各个性状的原始数据的量纲和级别不同,首先要进行标准化处理。多层感知器神经网络模型的实际应用效果受训练样本数量、模型结构等因素影响较大。因此,首先还要进行隐藏层数和训练样本/检验样本比例的优选。隐藏层数一般设置为1或2层,训练样本/检验样本的比例设置9∶1、8∶2、7∶3、6∶4、5∶5、4∶6、3∶7、2∶8、1∶9共9个处理。由于神经网络存在多解问题,因此有必要对不同次训练结果之间预测精度的变异性以及各个自变量相对重要性的变异性进行研究。最后分析不同性状对产量的相对重要性,以及在最高产量水平下各种性状的最佳组合。 2 结果与分析
2.1 神经网络模型结构的优选
隐藏层数和训练与检验样本分区比率对预测误差的影响见图1。从图1可以看出,当训练与检验样本分区比率≥7∶3时,预测误差较小,而且此时隐藏层数对预测误差影响不大。若训练与检验样本分区比率<7∶3,随着比率的减小,误差逐渐增大,而且此时2层隐藏层比1层隐藏层的预测误差要大。可见,训练分区样本的数量较少会影响训练的效果。因此,该试验选用训练、检验和预测样本分区比率为5∶2∶3和1层隐藏层的网络结构进行模拟。建立的多重传感器神经网络模型含有1个隐藏层,输入层有10个神经元节点,即自变量个数,输出层有1个节点,隐藏层自动设置7个节点,构成一个10-7-1的神经网络模型。模型的基本情况见表1,系统自动生成的各个节点的权重系数见表2。
2.2 不同次训练结果的变异度分析
模拟结果中预测误差和自变量重要性的变异度比较见表3。从表3可以看出,不同次训练结果的平均绝对误差和平均绝对相对误差的变异系数较小,但不同次训练结果中各个自变量相对重要性的变异系数较大。因此,神经网络较适合用于进行产量的预测,在用于研究各个性状对产量的相对重要性时,应采取多次重复求平均值的方法,以减少分析结果的误差。
2.3 各个性状的相对重要性
神经网络模型预测的各种性状的相对重要性见图2。从图2可以看出,穗粗和穗长的相对重要性最高,其次是百粒重、株高和生育期,穗位和倒折株数的相对重要性中等,而秃尖、倾斜株数、病指数和穗行数的相对重要性较低。
2.4 各个性状的最佳组合
3种模型的预测结果中,产量最大时各个性状的最佳组合的结果基本一致,除了秃尖、倒折株数和空杆株数等性状的变异系数较大之外,其他性状的变异系数均较小,而这3个性状的取值都很小。产量最大时的各个性状的取值分别为生育期103 d左右、株高300 cm左右、穗位120 cm左右、倒折株数2~3株、空杆株数接近0株、穗粗5.6 cm、穗长20 cm、秃尖0.5 cm、穗行数16行、百粒重39 cm、病指数1.0。在该合下,预测的最高产量为9 750 kg/hm2左右。
3 结论与讨论
神经网络模型是近年来发展起来的一种变量关系模拟和预测方法,由于它具有良好的非线性映射能力和很强的自学习适应能力,因而为解决未知不确定性非线性关系问题提供了有效的方法[4]。这些模型对育种家确定不同环境下的育种目标、比较不同育种方法的优劣、设计育种的选择方案和优化策略开展分子辅助选择育种研究提供了强有力的辅助工具。然而,作物育种学是一门实践科学,育种方法的研究来源于育种实践的需要。在以后的研究中,计算机模拟应与育种实践紧密结合,不断发现并解决育种工作中存在的問题,才能真正为育种家服务。
玉米产量除受自然环境影响外,遗传因素也具有很重要地位,在玉米育种工作中,通过研究主要农艺性状及其与产量的相互关系,找出影响产量的主要因素,可以为优良杂交种的选育提供选择依据[5]。玉米产量是各农艺性状综合作用的结果,影响产量的因素很多,有些与产量关系密切,而有些作用较小[6-7]。对玉米杂交种主要农艺性状的遗传相关及其与产量的关系已有很多报道,前人大多利用各自不同的育种材料,基于一种方法进行研究,因此结果各不相同[8-9]。该研究发现,在所有的性状中,穗粗、穗长对产量的相对重要性最大,随后是百粒重、株高和生育期等,这与张泽民等[10] 、丁山等[11]和卓德众等[12]的研究结果基本一致。其次,研究还发现,产量最大时各个性状的最佳组合为生育期103 d左右、株高300 cm左右、穗位120 cm左右、倒折株数2~3株、空杆株数接近0株、穗粗5.6 cm、穗长20 cm、秃尖0.5 cm、穗行数16行、百粒重39 cm、病指数1.0等,这较符合玉米育种目标的常规认识和思路。刘帆等[13]、陈发波等[14]、闫海霞等[15]的结果与该研究也基本一致。针对特定的原始材料和黄淮海地区特殊的生态条件,对该玉米育种项目和黄淮海地区的玉米育种目标和育种策略的制定具有一定的参考价值。
参考文献
[1] 鲁珊,肖荷霞,毛彩云,等.玉米杂交种主要农艺性状的相关和通径分析[J].安徽农业科学,2017,45(21):26-27,58.
[2] 史新海,李可敬,孙为森,等.山东省不同年代玉米杂交种主要农艺性状演变规律的研究[J].玉米科学,2000,8(2):33-35.
[3] 李晓花,林永明,谢淑芳,等.玉米产量与主要农艺性状的灰色关联度分析[J].云南农业科技,2016(1):13-15.
[4] 焦李成,杨淑媛,刘芳,等.神经网络七十年:回顾与展望[J].计算机学报,2016,39(8):1697-1716.
[5] 佟屏亚.中国玉米生产的发展方向——质疑“超级玉米”“超高产”[J].农业科技通讯,2005(8):11-13.
[6] 崔俊明.新编玉米育种学[M].北京:中国农业科学技术出版社,2007:12-57.
[7] 周得宝,王娟,王五洲,等.夏玉米品系(种)的产量比较及主要农艺性状的关联度分析[J].安徽农业科学,2017,45(26):48-51,78.
[8] 何文昭.玉米产量和主要农艺性状杂种优势遗传分析[D].北京:中国农业科学院,2017.
[9] 史新海,赵格.山东省紧凑型玉米杂交种主要农艺性状对产量的影响及其演变规律的研究[J].玉米科学,2003,11(2):59-61,85.
[10] 张泽民,刘丰明,李雪英.河南省1963~1993年玉米杂交种籽粒产量及其组成性状的遗传增益[J].作物学报,1998,24(2):182-186.
[11] 丁山,郭去,宋军,等.玉米主要性状与产量的回归模型及相关分析[J].西南农业学报,2008,21(5):1226-1230.
[12] 卓德众,刘启华,郭红甫.灰色关联度分析法在玉米育种中的应用[J].玉米科学,1996,4(3):31-34.
[13] 刘帆,石海春,余学杰.玉米果穗主要性状与产量间的相关与通径分析[J].玉米科学,2005,13(3):17-20.
[14] 陈发波,杨克诚,荣廷昭,等.西南及四川区试玉米组合主要性状分析及育种对策探讨[J].玉米科学,2007,15(4):41-45.
[15] 闫海霞,柳家友,吴伟华,等.含非洲血缘玉米杂交种主要穗部性状与单株产量的相关及通径分析[J].杂粮作物,2007,27(6):379-381.