论文部分内容阅读
随着科技的进步,信息科学与生命科学的发展取得了举世瞩目的成绩。信息科学同生命科学之间的相互交叉成为发展极其迅速的新型科学领域。该领域解决的主要问题之一是作物育种表型信息同基因信息之间的相互协作关系研究。这一问题是21世纪育种科学家急切需要解决的问题,对此问题的有效解决方案可以帮助育种科学家根据育种材料的遗传基因信息预测作物的表型。然而,这是一项非常艰巨的任务,特别是育种材料的表型信息是由成千上万的复杂基因以及植物生长环境不断地变化所控制的。大规模信息处理与高通量信息获取是解决这一问题的重要方向,依托大规模的基因型数据与表型数据(观察到的植物的表型)之间的相关性挖掘最终将能够成功地预测品种表现。目前新一代测序技术的进步可以提供丰富的遗传基因信息,然而科学高效的作物表型检测能力却发展缓慢,这种状况直接导致研究基因型和表型信息相关性挖掘信息量的不平衡。高通量表型信息数据的缺失成为遗传性关联分析研究与基因组选择的瓶颈。本文从育种大规模数据处理基础理论及应用方面、高通量表型信息获取方面进行研究,最后给出高通量生物育种物联网平台的解决方案。1、创新地将模糊集理论中的包含度概念应用到粗糙模糊集中形成新的粗糙模糊集模型,在此基础上,提出进行批量式动态增加的聚类算法。算法极大地改善了构建育种大数据仓库的效率,达到大规模数据高效处理的目的;2、针对种质资源数据库构建过程中大量种质材料数据需要进行品质分类的问题,提出利用堆栈稀疏自编码k-means聚类算法对数据进行聚类的方法,并将聚类结果利用已知品质标注的种质资源数据进行类别标注,从而达到对育种数据品质等级归类的目的。区别于传统k-means聚类算法,利用堆栈稀疏自编码网络进行关键数据特征提取,逐步降低样本维度,构建混合特征数据,将其作为k-means聚类算法的初始中心,有效地避免了 k-means聚类算法中对初始中心选取敏感性问题。实验数据表明,该聚类算法准确率相比传统算法有明显的提高;3、围绕高通量作物表型信息获取任务,依托网格摄像头矩阵图像采集设备以及无人机(UVA)搭载可见光、多光谱获取表型图像数据,然后利用图像矫正以及正射影像生成技术获取育种小区正射影像,创新性研究利用作物冠层绿色覆盖度提取的图像处理方法,结合基于图像几何映射的育种小区作物高度测量技术,得到育种小区叶面积指数(LAI)的计算方法。从而高通量、低成本、高效准确地获取作物表型信息包括:株高、出苗率、倒伏、长势等;4、从平台化构建的角度研究高通量生物育种物联网平台建设的基本内容以及目前主要进展,并对育种信息化基础管理系统、育种农业传感器研究与开发、高通量作物田间表型视觉测量装置研发以及育种表型快速检测移动机器人四大平台组成部分进行一一说明,重点介绍了高通量育种信息化管理系统与育种表型快速检测移动机器人的主要功能和技术参数。