强影响点的数据挖掘和图示

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dreamrain1220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据挖掘技术在现代商业中的广泛应用,对异常点和强影响点的挖掘成了经济、统计等领域广泛研究的课题。由于数据挖掘和统计诊断是近半个世纪才发展起来的新兴学科,虽然取得了很多研究成果,但仍有许多问题处于探索之中。本文在分析研究国内外有关强影响点的挖掘方法及其研究现状的基础上,从探索性数据分析的角度出发,提出了挖掘强影响点的两个新方法:基于关联分析的离差法和贡献得分降维法。其主要工作和结论如下:·基于关联分析的离差法:利用关联分析方法,计算第k个观测值与中心的偏差系数和偏离系数,并根据它们的内积求离差度,用来判断强影响点。文中,针对几个典型实例,并编写了相应的计算程序,理论分析与计算结果表明:(1)使用该方法判断强影响点与经典方法相比较,结论是一致的。(2)该方法需要的样本容量可以很小,大于3个数据就可进行离差度计算与分析。(3)该方法计算工作量小,算法的时间复杂度为O()。·贡献得分降维法:对变量作主成分分析,计算贡献得分,从而对高维数据降维,剔除数据后并利用K-均值聚类求影响距离,判断强影响点。通过实例的计算分析,结果表明:(1)降维前后,使用影响距离和Cook距离所求得的强影响点是一致的,说明降维是可行的。(2)使用影响距离判断强影响点与经典方法-Cook距离相比较,结论是一致的,说明本文提出的影响距离法也是可行的。(3)通过降维,就可对高维数据的强影响点进行图示。·设计并开发了一个强影响点的挖掘系统。
其他文献
经过二十多年的研究,有机电致发光器件(Organic Light-Emitting Diode,OLED)由于具有高效率、自发光、大面积、柔性、高亮度以及高的对比度等优点,在平面显示和固态照明方面
国内大多数中低压配电网都采用中性点经消弧线圈接地的方式运行,其故障类型主要以单相接地故障为主,大概占到了总体的80%。近年来,国内外专家对单相接地故障进行了深入研究,
透明导电氧化物(Transparent Conducting Oxides, TCOs)是一种拥有高透过率、高电导率的半导体材料,在光电器件、太阳能电池、液晶显示器、场效应管等多个领域都有着广泛应用
有源矩阵有机发光二极管(Active Matrix Organic Light Emitting Diode,AMOLED)显示被认为是下一代主流的显示技术。面向AMOLED显示发展所需的薄膜晶体管(Thin Film Transist
表现性活动区是以幼儿已有经验为导向的,它通过各种开放性材料的投放,为幼儿提供自我表现与表达的机会。依据大班幼儿的年龄特征及本班幼儿的发展水平,在活动区投放幼儿熟悉
文章从分析当前被装生产供应商管理的意义入手,提出了被装生产供应商管理中要把握的原则,探讨了被装生产供应商管理的准入策略、绩效策略、激励策略、双赢策略。 This artic
《毛泽东年谱》(1949—1976)是一部政治性、文献性和学术性相统一的编年体著作,既比较全面地反映了毛泽东领导建立新中国、建立中国社会主义制度、探索中国社会主义建设道路27年
针对上海市经济和环境的协调度,使用牛顿插值法、主成分分析法,利用SPSS、MATLAB等软件,建立静态协调度、动态协调度和耦合度三种协调度评价模型,从量化的角度分析上海市的经
本文以财务管理中常见的一些比率如反映偿债能力的指标包括流动比率、速动比率、资产负债率和反映企业盈利能力的指标包括净资产收益率、总资产报酬率作为分析的对象,指出原
研究了人工抑芽(T1)、杯淋氟节胺1次(T2)、杯淋氟节胺2次(T3)3种农艺措施对烤烟碳氮代谢关键酶、化学成分以及叶片超微结构的影响。结果表明:(1)打顶后21 d和28 d,T2的淀粉酶