论文部分内容阅读
近些年来,随着我国育种研发技术的突飞猛进,种子相关企业数量的与日俱增,导致种子品种更新过快,而育种相关企业经营的品种又繁杂不一,使得种子在品种数量上越来越多。与此同时,由于影响玉米产量的因素较多,农户对土地信息及种子信息缺乏专业性的知识认知,农户无法提供准确的相关数据,便导致了农户在选择玉米种子时遇到的选种难问题。在企业方面,由于购买种子人群信息较为复杂、地域差异因素众多等问题,玉米种子供应商无法及时准确的获得农户所反馈的种植情况方面相关资料,从而影响对玉米种子的研发生产。
基于以上原因,我们开发一种基于Hadoop架构下的分布式信息管理平台从而为这一难题提供一种解决方案。Hadoop是一种具有很强的吞吐量以及对错误数据具有包容能力的一种分布式并行运算架构。对传统的单一计算点平台来运算和存储玉米种子及种植农户的相关信息所带来的耦合性强、可扩展性较弱、平台对数据信息输入输出量较差等问题进行了改进,使得种子优选平台整体对处理数据能力可以得到有效的提高。
推荐算法方面,基于特征推荐的方法主要是两种:目标农户与相邻用户之间的协同推荐算法和基于种子特征的推荐。传统的推荐算法在进行玉米种子优选推荐时存在着问题,如仅能根据农户选种历史记录信息中推荐符合偏好相类似的项目,而忽略了地理特征等相关因素,导致推荐给农户的种子信息精确度不够。基于种子特征推荐的原则是,取决于用户与相邻用户感兴趣的种子信息进行筛选,对目标农户所录入的数据进行采集后,根据这些目标农户所录入的数据,将相邻农户之间的种子信息所展现的特征进行整合并找到其之间的具有相似性的数据,通过这些数据来为目标用户提供相似度最高的相邻用户所使用过综合评价最高的种子数据进行目标推荐。在这个算法之中最重要的环节是:通过算法来找到每一个基本农户和农户之间的相似之处,以这个信息作为评估项目的主要数据,通过这些数据来寻找与目标农户相似的邻居农户,在此基础上来进行最近的相似度较高的相邻农户加以评级。
种子优选平台能够根据农户所录入的信息,在目标农户所偏爱的种子的基础上进行种子推荐,当农户需寻求到其他种子的信息时,推荐平台将基于用户及种子两种元素的特征,为其提供更加适合的种子信息来为其提供相应的推荐。通过对传统的协同算法的研究,并且在这一基础上,我们建立了一个基于农户和种子两种因素相互作用的算法。为增强目标农户与相邻农户之间的相似性程度,在寻找相邻农户时与地理特征相结合,从而提高对目标农户推荐种子的精确性,为农户在优选环节中种子的选取进行最优推荐。本文基于Hadoop并行计算的种子优选平台进行开发,并加入基于农户及种子因素的协同过滤算法。为解决繁杂的农业数据提供了一种思路和方法,为构建智慧农业提供了一种可靠的理论依据。传统的协同过滤算法推荐出的平均误差中较新算法所提供的数据效率要高出很多,经过统计可以得到基于农户及种子特征的协同过滤算法的平均绝对误差可以使得传统的算法UCF降低了14%,比ICF降低了9%,由于MAE算法具有得到的值越小推荐精度越高的特点,可以得出结论较传统的协同过滤推荐算法而言,基于农户及种子特征的协同过滤算法推荐准确性更高。
基于以上原因,我们开发一种基于Hadoop架构下的分布式信息管理平台从而为这一难题提供一种解决方案。Hadoop是一种具有很强的吞吐量以及对错误数据具有包容能力的一种分布式并行运算架构。对传统的单一计算点平台来运算和存储玉米种子及种植农户的相关信息所带来的耦合性强、可扩展性较弱、平台对数据信息输入输出量较差等问题进行了改进,使得种子优选平台整体对处理数据能力可以得到有效的提高。
推荐算法方面,基于特征推荐的方法主要是两种:目标农户与相邻用户之间的协同推荐算法和基于种子特征的推荐。传统的推荐算法在进行玉米种子优选推荐时存在着问题,如仅能根据农户选种历史记录信息中推荐符合偏好相类似的项目,而忽略了地理特征等相关因素,导致推荐给农户的种子信息精确度不够。基于种子特征推荐的原则是,取决于用户与相邻用户感兴趣的种子信息进行筛选,对目标农户所录入的数据进行采集后,根据这些目标农户所录入的数据,将相邻农户之间的种子信息所展现的特征进行整合并找到其之间的具有相似性的数据,通过这些数据来为目标用户提供相似度最高的相邻用户所使用过综合评价最高的种子数据进行目标推荐。在这个算法之中最重要的环节是:通过算法来找到每一个基本农户和农户之间的相似之处,以这个信息作为评估项目的主要数据,通过这些数据来寻找与目标农户相似的邻居农户,在此基础上来进行最近的相似度较高的相邻农户加以评级。
种子优选平台能够根据农户所录入的信息,在目标农户所偏爱的种子的基础上进行种子推荐,当农户需寻求到其他种子的信息时,推荐平台将基于用户及种子两种元素的特征,为其提供更加适合的种子信息来为其提供相应的推荐。通过对传统的协同算法的研究,并且在这一基础上,我们建立了一个基于农户和种子两种因素相互作用的算法。为增强目标农户与相邻农户之间的相似性程度,在寻找相邻农户时与地理特征相结合,从而提高对目标农户推荐种子的精确性,为农户在优选环节中种子的选取进行最优推荐。本文基于Hadoop并行计算的种子优选平台进行开发,并加入基于农户及种子因素的协同过滤算法。为解决繁杂的农业数据提供了一种思路和方法,为构建智慧农业提供了一种可靠的理论依据。传统的协同过滤算法推荐出的平均误差中较新算法所提供的数据效率要高出很多,经过统计可以得到基于农户及种子特征的协同过滤算法的平均绝对误差可以使得传统的算法UCF降低了14%,比ICF降低了9%,由于MAE算法具有得到的值越小推荐精度越高的特点,可以得出结论较传统的协同过滤推荐算法而言,基于农户及种子特征的协同过滤算法推荐准确性更高。