云环境下精准扶贫数据的异常检测研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:cool_1944
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精准扶贫数据是一种典型的统计数据,分析和发现其中蕴含的价值和规律,具有重要的意义。然而,数据失真往往是不可避免的,异常数据检测有助于提高数据质量、改善挖掘结果。因此,本论文着眼于精准扶贫数据的异常检测,以某省精准扶贫数据为例开展了相关研究。针对精准扶贫数据的复杂、高维、量大等特点,具体研究内容包括以下三个方面:(1)由于混合属性是精准扶贫数据复杂特点的主要表现,提出了一种基于信息熵的连续属性离散化方法。经UCI测试数据集检验,并与多种代表性离散化方法相比,所提方法具有信息丢失少的优势。同时,该方法被应用于随机选取的10万条精准扶贫数据样本集的连续属性离散化,证明了其有效性。(2)针对精准扶贫数据的高维特点,借鉴信号处理的思想,提出了一种基于马斯洛需求层次理论的数据信号表达方法,将精准扶贫数据的各属性进行了排序,并将排序后的各属性视为信号采样点。在此基础上,提出了基于傅里叶变换的异常数据检测方法。经UCI测试数据集检验,文中所提方法在召回率和误测率方面取得非常理想的效果,并应用于被离散化后的精准扶贫数据样本集的异常检测。(3)由于精准扶贫数据包含大量贫困人口的详细信息,常规的处理环境耗时较长、效率较低,文中借助Hadoop云环境,采用数据分布并行的思想,对所提出的连续属性离散化方法和异常数据检测方法进行了实现,可支撑精准扶贫数据的异常检测。根据实验结果,精准扶贫数据的异常率介于[0.005%,0.013%]之间,表明精准扶贫数据具有很高的可信度。同时,文中提出的连续属性离散化方法和异常数据检测方法,能对现实中类似数据的异常检测工作具有一定的参考价值。
其他文献
与《观察与思考》杂志策划总监、资深记者刘晓林先生相识已有多年。我们也经常一起去为企业“把脉”,一起探讨经济、政治、文化、社会各方面的问题,常常觉得彼此有许多相似之处
通过新旧单词对比、同义词反义词对比、构词法等教会中专学生记忆英语单词以扩大词汇量激发他们学习英语的兴趣,同时通过与词的搭配方面的教学,促进学生扩大语汇,学会理解英
目的:评价RT-PCR法检测食管鳞癌区域淋巴结微转移的临床病理意义.方法:取23例食管鳞癌患者的区域淋巴结共104枚,将每枚淋巴结均分为两等份,分别进行病理学检查和上皮组织特异
<正>高中数学课堂教学离不开解题教学.目前,解题教学的重头戏是通性通法的教学.这样的教学约束了学生的创新思维,从而出现的是千生一面、众生同思的状况,培养出的是畏惧创新
1月29日,延边州召开第二届“美丽村官”事迹报告会暨“美丽庭院”工作交流会,表彰“十佳美丽村官”和“十佳美丽庭院”.据了解,自延边州开展创建美丽乡村活动以来,新农村建设
创新学报编辑,必须具有竞争意识,前瞻意识和特色意识,只有具备这些意识,才能担当得起编辑创新学报的重任.