论文部分内容阅读
随着全球气候条件的变化,以及现代农业生产的迅速发展,对农业气候资源的分析与应用提出了更高的要求。现代的精细化农业气候区划中的核心技术有小网格插值技术和农业气候资源区划技术。小网格插值技术在气候资源的分析中得到了广泛的应用。它是基于地理信息系统技术对各种应用领域的相关信息进行精细化研究的重要手段。小网格插值技术属于海量数据处理技术,需要大量的计算时间,无法满足实时分析的要求。为了提高系统的反应时间和信息处理的效率,我们在对小网格插值的关键技术Kriging算法进行并行化研究之后,采用数据并行策略和Master/Slave编程模型,并应用了动态负载均衡技术来进一步提高算法的并行效率。农业气候资源区划技术主要有聚类分析、权重法、专家打分法等。K-means算法是聚类分析中一种基于划分的聚类算法,常采用偏差作为聚类准则。它是精细化农业气候区划中用到的关键聚类技术。由于小网格插值数据信息量大,而且需要进行实时聚类及分析,这就需要改进经典的K-means算法。为了提高传统K-means算法的聚类精度和运行效率,我们提出了两种新改进的算法:CK-means算法和K-means#算法。CK-means算法是一种基于竞争策略的改进算法,针对小网格插值数据(一维海量数据),该算法与经典K-means算法具有相同的气候资源区划结果,但是运行效率更加优越。目前,该算法已成功地应用于精细化农业气候区划中。K-means#算法采用K-means++算法的“D2seeding”方法来初始聚类中心,并在聚类分析的过程中引入“邻居聚类中心集”的概念。该算法不仅提高了经典K-means算法的聚类精度,而且显著地加快了其运行效率。为了进一步提高聚类分析的执行效率,论文同时研究了并行K-means++算法与并行K-means#算法的实现。在研究K-means++算法自身的特点以及各机器节点的处理能力的基础上,采用数据并行以及负载均衡的策略,实现了并行K-means++算法。实验结果表明:并行K-means++算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。对于K-means#算法,给出了一种可行的并行化思路和算法流程,为下一步的研究提供有意义的参考。