论文部分内容阅读
精准扶贫数据是一种典型的统计数据,分析和发现其中蕴含的价值和规律,具有重要的意义。然而,数据失真往往是不可避免的,异常数据检测有助于提高数据质量、改善挖掘结果。因此,本论文着眼于精准扶贫数据的异常检测,以某省精准扶贫数据为例开展了相关研究。针对精准扶贫数据的复杂、高维、量大等特点,具体研究内容包括以下三个方面:(1)由于混合属性是精准扶贫数据复杂特点的主要表现,提出了一种基于信息熵的连续属性离散化方法。经UCI测试数据集检验,并与多种代表性离散化方法相比,所提方法具有信息丢失少的优势。同时,该方法被应用于随机选取的10万条精准扶贫数据样本集的连续属性离散化,证明了其有效性。(2)针对精准扶贫数据的高维特点,借鉴信号处理的思想,提出了一种基于马斯洛需求层次理论的数据信号表达方法,将精准扶贫数据的各属性进行了排序,并将排序后的各属性视为信号采样点。在此基础上,提出了基于傅里叶变换的异常数据检测方法。经UCI测试数据集检验,文中所提方法在召回率和误测率方面取得非常理想的效果,并应用于被离散化后的精准扶贫数据样本集的异常检测。(3)由于精准扶贫数据包含大量贫困人口的详细信息,常规的处理环境耗时较长、效率较低,文中借助Hadoop云环境,采用数据分布并行的思想,对所提出的连续属性离散化方法和异常数据检测方法进行了实现,可支撑精准扶贫数据的异常检测。根据实验结果,精准扶贫数据的异常率介于[0.005%,0.013%]之间,表明精准扶贫数据具有很高的可信度。同时,文中提出的连续属性离散化方法和异常数据检测方法,能对现实中类似数据的异常检测工作具有一定的参考价值。