【摘 要】
:
随着我国社会经济的发展,政府统计部门对企业上报的数据的要求越来越高,个别企业从自身利益出发存在着虚报、瞒报现象。如何甄别企业上报数据中的不真实数据进而保证数据质量
论文部分内容阅读
随着我国社会经济的发展,政府统计部门对企业上报的数据的要求越来越高,个别企业从自身利益出发存在着虚报、瞒报现象。如何甄别企业上报数据中的不真实数据进而保证数据质量成为统计领域亟待解决的课题。利用数据挖掘技术对海量数据进行异常数据的检测是一种可行的方法,但该技术在统计领域被研究得不多。本文围绕如何运用数据挖掘技术在人力资源统计数据中进行异常数据检测的自适应方法及应用展开研究工作。本文的主要研究工作有以下几点。首先,本文对数据挖掘技术和异常检测方法进行了梳理,重点对K-means和DBSCAN两个聚类算法进行了深入的研究。接着,提出了一种基于混合聚类的自适应异常检测方法。该方法改进K-means算法提供了自动计算合适K值的方法,结合了K-means和DBSCAN聚类算法的优点,实现参数的自适应,避免了人工干预。运用改进的K-means算法一次聚类计算DBSCAN算法的初始值,用DBSCAN算法二次聚类即可得到异常数据。最后,以本文提出的基于混合聚类的自适应统计数据异常检测方法为基础,开发了统计数据异常检测系统,该系统汇集上报数据并进行必要的处理后即可检测出异常数据。为解决数据源问题,开发了与该系统相配套的人力资源和工资统计信息系统。本文的研究工作较好解决了人力资源统计数据中存在的企业虚报、瞒报等问题,也为有效解决统计领域异常数据的检测问题提供了新的思路。
其他文献
由于甾体抗炎药和环氧酶抑制剂的使用可能引起严重的副作用,IκB激酶p(IKKβ)/核转录因子(NF-κB)这条炎症通路成为了最具前景的抗炎候选药物研究靶点。大黄酸是骨关节炎治疗
随着新一轮基础教育改革的推进,2003年《普通高中语文课程标准(实验)》颁行,选修课的设置也成为体现课程改革理念不可或缺的一部分,选修教材的编写也成为人们关注的焦点。高
一、研究背景随着理论及技术的不断进步,对骨不连的治疗效果有了显著的提高,但是,仍然有相当一部分的骨不连治疗起来极其困难,对于创伤骨科医师来说依然是一大挑战。Ilizarov
本文利用福建省第二次土壤普查(1983年)和耕地地力调查(2008年)样点土壤属性分析数据、2008年福建省土地利用现状和耕地分等定级数据库以及两个时期气象观测、人口统计、经济
中国律师作为社会主义法律工作者,是国家法治建设的重要专业力量和具体参与者。自1979年我国律师制度恢复重建以来,广大律师充分发挥律师行业的专业优势和职业优势,紧紧围绕
自西方国家资产阶级革命以来,公开审判制度以其对司法和人权的重要意义而倍受各国推崇,为现代法治国家普遍遵循,也成为程序公正的标志之一,在我国也经历了从无到有的发展过程。近
学术权威和行政权力是高校中的两种基本权力,高校的组织特性决定了其客观存在。高校作为学术组织,学术权威是高校的核心和内在逻辑要求;作为正式的社会组织,行政权力是高校管
混凝土这种人工复合材料,其宏观性能的表现与细观构造之间的内在联系目前还很少有人进行过系统的研究,本论文先从混凝土材料的细观数值试验和混凝土材料的宏观力学参数估计入手
负荷预测的准确与否,直接影响电力工业的发展。电网规划是所在供电区域国民经济和社会发展的重要组成部分,同时也是电力企业自身长远发展的重要基础。负荷预测是电网规划的基
隐私权是人格独立和人格尊严的表现,是社会文明进步的反映。本文将隐私权定义为个人为维护其人格尊严对其隐私信息的自我决定权,具体到网络环境下则是个人对其在网络上注册登