数据挖掘在精准扶贫中的研究及应用

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:tudeyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精准扶贫的实质是政府对贫困家庭和成员进行有效识别,挖掘贫困的原因和程度,并开展切实有效的帮扶,从根本上打破贫困的藩篱,进而实现到2020年之前现有贫困人口全面脱贫。随着我国经济的高速发展,带来的国民收入水平严重不平衡,从前那种粗放式的针对区域的扶贫方式早已不适用我国,在这种情况下精准扶贫应运而生。至目前为止,精准扶贫的主要困难点在于“精准识别”、“精准扶持”、和“精准监控”这几个方面。精准识别作为精准扶贫的基础和最重要的一环,一定要做到足够精确,如果贫困户都识别错误,对贫困户的精准扶持就没有任何意义。近些年来,传统的扶贫技术和模式遇到了困境,因为从前那种粗放针对区域的扶贫模式效率很低,如今很难识别出谁是真正的贫困户,所以传统的扶贫模式急需改变。与此同时,大数据技术在近年来得到飞速发展,并被国家定为重点发展方向,所以通过大数据技术与精准扶贫有机结合的视角来研究精准扶贫绩效提升机制,从而深入推进大数据技术在扶贫开发领域的全面应用。利用数据挖掘的知识在大数据计算框架Spark下对贫困人口进行精准识别,与传统的识别方式相比用海量样本代替抽样样本,显然有更高的准确性更强的说服力,也有利于发现真正的致贫原因以及今后的帮扶。本文基于黑龙江省精准扶贫建档立卡贫困村数据,以及非贫困户数据按比例生成3400万条样本数据,做了如下工作:通过大数据和数据挖掘知识,利用大数据计算框架Spark中的机器学习ML Pipeline模块对贫困户进行建模分类预测。首先进行数据预处理,包括对贫困户数据进行特征抽取、特征转换,然后利用随机森林算法,Logistic算法以及新提出的瀑布模型分别构建贫困户识别模型。最后对几种贫困户识别模型进行对比评估,通过10次抽取检验集数据检验三种模型的AUC平均值,然后用三种模型对100条真实贫困户数据进行分类,检验模型对真实贫困户数据的识别能力。根据三种模型的AUC平均值,三种模型对真实贫困户的识别准确率以及三种模型的构建时间来评估三种贫困户识别模型,最后以此得出结论。
其他文献
词汇是语言表达的基本成分,也是语言学习的基础。而词汇量的大小也会影响到英语学习者其他方面技能的学习与提高。所以,在英语学习中,词汇的学习就显得尤为重要。合理的英语
石油、煤炭、天然气等一次性能源是人们生活中的主要能源,可是它们的储量有限,使用量却没有降低,按照现在的使用速度很快就会枯竭;另外,这种传统能量燃烧后污染大气,给人们的
经过多年的发展,微波遥感技术得到长足发展,其图像在地学领域得到了广泛应用。SAR以其全天候、全天时对地观测能力,以及其图像的分辨率不受平台高度影响的优越性成为重要的传感
针对由一个制造商和供应商构成的两级供应链,且生产具有碳排放需求弹性的产品,构建随机需求下的利润模型,研究联合决策条件下最大利润及最小碳排放时的生产量及碳排放量。分
本文根据金属裂纹扩展理论对高强度螺栓的疲劳断裂过程进行分析,提出了一种估计螺栓疲劳寿命的方法,由此方法,我们能够根据给定的可靠度和疲劳寿命设计螺栓的尺寸。
有人说品读《红楼梦》就是在品读人生,许多生存的道理蕴藏于小说人物的命运当中,在那些看似平常的丫鬟身上,也蕴含着不少职场生存之道。 Some people say reading “A Dream
期刊
以武汉地铁三号线某车站基坑工程第三方监测为例,对基坑重点段的主要监测方法进行分析判断,并根据所监测结果及时提出监测预警,使各方利用监测数据采取安全措施,从而确保基坑
<正> 1概况南方水田机械化经过40多年的努力,已研制推广了各式水田机械化新机具,使南方水田机械化不断地发展。就目前南方14省、市水田机械化程度的现状分析,水稻的植保、脱
以武汉软土地区某典型基坑工程为背景,分别采用坑内被动区加固及内支撑两种支护形式进行设计计算,利用PLAXIS数值模拟软件建立模型进行分析。结果表明,从控制结构内力与变形
通过再生水厂的运行实例,阐述了超滤膜在市政污水深度处理中的应用,同时对工艺原理和优点做了简单介绍。通过对超滤膜实际水质监测,结果表明,超滤膜对COD,氨氮,总氮,总磷去除