基于AP聚类的不完备数据处理方法的研究与实现

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:t6293003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据挖掘逐渐成为创新研究的热点。数据挖掘,是在大数据中发现数据的潜在关系,从而实现价值评估和决策指导的技术。然而高质量的决策评估很大程度上取决于高质量的数据,所以数据挖掘之前的预处理工作就显得尤为重要。在实际应用中,各种数据质量问题增加了预处理工作的难度,其中数据不完备问题更是无法避免。本文主要研究预处理工作中数据不完备问题的处理,主要的研究工作如下。1)针对数据不完备问题的随机缺失模式,本文提出了基于增量式AP聚类的K最近邻的填补算法(IAPSKNNI)。首先分析数据不完备问题的原因和常用的处理方法,进而确定聚类填补的处理策略。根据动态处理数据不完备问题的需求,基于AP聚类的稳定聚类表现,使用增量式AP聚类动态更新聚类结果,来充分利用数据的完备信息。同时改进K最近邻填补使其能在不设定K值的情况下,将填补值快速收敛。最后通过实验仿真,验证了 IAPSKNNI算法的良好的填补性能,当缺失率越高,同类信息越少时,相对于其他K最近邻填补算法,能获得更好的填补效果。2)基于IAPSKNNI算法,针对电商数据,搭建了数据预处理的系统模块。首先分析数据预处理工作的工作内容,并从任务分割角度分解预处理工作。针对电商数据,分析数据预处理系统模块的功能需求,进而设计相应的系统子模块。基于JDBC的接口,使用JAVA语言分别实现数据采集、数据处理、数据检测、调度管理等四个子模块,从而搭建了完整的面向电商数据的预处理系统模块。
其他文献
目的:分析河北省涉县2000-2010年恶性肿瘤发病情况,为恶性肿瘤预防控制工作提供有效的措施.方法:肿瘤发病资料取自涉县肿瘤登记处,全部资料录入计算机,用SPSS 13.0软件进行统计
介绍一种移动辐射宽带声源发射控制系统的设计,包括主要技术指标、系统组成、整体方案实现以及硬件和软件组成,它可为应用设计提供参考。
目的:探讨重症急性胰腺炎(severe acute pancreatitis,SAP)合并消化道瘘的危险因素、临床诊治经验,其目的提高SAP治愈率,降低消化道瘘的发生率及病死率.方法:对2006-01/2011-08我
土地是国家重要的经济资源,随着改革开放的不断深入,中国加入世界贸易组织以及日益加剧的市场竞争环境,特别是房地产开发热的兴起,土地将作为竞争主体,重新活跃在经济舞台.国
Elf-1(E74-like factor 1)是Ets转录因子家族的一员,参与发生过程、细胞有丝分裂原的激活、癌发生以及病毒基因激活等。已有研究报道Elf-1在前列腺癌、子宫内膜癌中过度表达,且
中国作为拥有九亿农民的国家,农业问题历来被放到首要位置,而土地又是农业生产的核心要素,作为农业发展重要的资源,在我国尤为稀缺.新中国成立以来,我国农村土地制度发生了三
环首都特困县是河北省主要贫困地区之一,由于地理位置的特殊性,环首都特困县的贫困问题既阻碍着全省全面建成小康社会奋斗目标的实现,也会对京津冀区域经济的协调发展产生严
在九届人大五次会议上,朱镕基总理强调指出:"当前,要把加强农业和增加农民收入作为整个经济工作的突出任务."党的十一届三中全会以来,我国的农村经济获得了很大发展.改变了过
目的观察分析中医辨证治疗卵巢囊肿的临床效果。方法选择本院2011年1月—2012年1月收治的卵巢囊肿患者46例,随机分为治疗组和对照组2组,每组23例。治疗组采用中医药辨证治疗,
县域农村信用社是我国县域农村金融体系的重要组成部分,其作为一种地方性的金融机构,立足于服务三农事业,对支持发展县域经济具有义不容辞的责任。本文首先提出发展县域农村信用