论文部分内容阅读
国家作物种质资源数据库拥有180种作物、39万份种质信息、135万条记录,数据量达40GB,是世界上最大的植物种质资源数据库之一。利用知识发现(KDD)的原理、方法和技术发掘这些海量数据中蕴藏的信息,已成为当前作物信息科学研究的重要内容,对于充分发挥国家作物种质资源数据库的作用,更好地保护和利用我国丰富的作物种质资源具有十分重要的意义。本研究主要进行了以下两方面的研究。在分析国家作物种质资源数据库数据特点的基础上,提出了基于正态模拟的连续型数据缺失值处理方法以及基于随机数的离散型数据缺失值处理方法,并结合基于语义的离散化方法对国家作物种质资源数据进行了缺失值处理和离散化处理。研究分析了统计分析、决策树、关联规则、神经网络、遗传算法、模糊集、粗糙集等知识发现方法,结合国家作物种质资源数据库的特点,提出了基于关联规则的国家作物种质资源数据库知识发现方法。在此基础上,综合分析了现有的关联规则挖掘算法,重点分析了事务数据库中关联规则挖掘的经典算法—Apriori及其改进算法的特点,根据国家作物种质资源数据库中的关联规则具有多维性的特征,改进了Apriori算法,使其适用于多维关联规则挖掘,并提出了基于SQL的国家作物种质资源数据库Apriori关联规则挖掘方法。研究分析了国内外典型的知识发现系统,完成了国家作物种质资源数据库知识发现系统的总体设计,研制了国家作物种质资源数据库知识发现系统的原型。该系统接口简洁直观、易操作、挖掘结果易懂。在系统中设计了支持度过滤、置信度过滤、规则前件过滤及规则后件过滤等四种方法来精减规则数量。利用该系统,开展了大豆种质资源数据库的知识发现,初步获得了有关大豆种质资源农艺性状、品质、抗逆、抗病虫等特征特性的关联知识。