基于空间划分的优化聚类算法及相关技术研究

来源 :东北大学 | 被引量 : 11次 | 上传用户：yjn511

【摘要】

：

数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法，是20世纪90年代初针对“数据丰富、知识贫乏”问题应运而生的一种新技术。为了有效地

【作者】

：

孙焕良

【出处】

：

东北大学

【发表日期】

：

2005年01期

【关键词】

：

知识发现决策支持数据挖掘空间划分聚类分析数据流数据流挖掘滑动窗口演化分析孤立点检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法，是20世纪90年代初针对“数据丰富、知识贫乏”问题应运而生的一种新技术。为了有效地从海量数据中提取信息，数据挖掘算法必须具有良好的可伸缩性，也就是说，数据挖掘算法的运行时间必须是可预计的、可接受的。在众多方法中，基于空间划分的方法是一种有效处理海量数据的数据挖掘方法，其主要应用于聚类分析算法与孤立点检测算法。然而，现有的基于空间划分的方法却存在如下问题：第一，由于空间划分时产生的单元数与维数呈指数增长，该方法多适用于维数相对较低的数据。第二，在一些基于空间划分的数据挖掘方法中，如基于单元的聚类算法，如果划分粒度越细，则聚类精度越高，但同时粒度越细生成的单元数也越多，造成算法效率下降。如果划分的粒度变粗，则算法精度难以保证。针对目前基于空间划分的方法存在的问题，本文提出了一种新的基于空间划分的索引结构CD-Tree。为了降低空间复杂度，在保持单元间关系的条件下，CD-Tree只保存了非空单元，使得聚类与孤立点检测过程易于实现。文中给出了CD-Tree详细定义，设计了CD-Tree的构建、节点删除、树合并等相关算法，分析了CD-Tree相关算法的时间复杂度，并与其它存储结构的时间复杂度进行了对比。通过理论分析，对于空间划分问题，CD-Tree结构要优于其它可用于存储划分后单元的结构。 CD-Tree适用于当空间划分产生较多的空单元情况，而空单元的数量与数据的偏斜程度有关，数据偏斜程度越高，则生成的空单元数越多。为了确定CD-Tree的适用条件，需要一个度量来衡量空间划分下的数据偏斜程度。现有的衡量数据偏斜的度量不能用于衡量空间划分下的数据偏斜程度，本文提出了一种新的偏斜度的度量DSF(Data Skew Factor)。DSF相当于划分后空单元所占的比例，可用来估计生成非空单元数目。另外，DSF还可用于优化CD-Tree结构及在数据流聚类中动态调整划分的粒度。在CD-Tree及DSF基础上，本文研究了基于空间划分的优化聚类算法及相关技术，具体包括：基于空间划分的聚类算法；基于空间划分的数据流聚类算法；基于空间划分的孤立点检测算法。在基于空间划分的聚类算法方面，分析现有的基于空间划分的聚类方法的特

其他文献

珠算乘法定位——观察首数法

<正> 珠算乘法的种类较多,定位的方法也不一,结合公式法定位的较多,观察首数法也是由公式法演变而来,这种方法适用于任何方法相乘的两个因数,它属于算后定位。所谓观察首数法

期刊

珠算乘法观察首数法公式法

分布式城市空间信息系统的关键技术研究与实现

数字城市是当今城市信息化建设的发展趋势。在信息科学支撑下，城市GIS系统得到了迅速发展，已经在城市的各个管理部门中获得了一定程度的应用。如何利用已建立的应用服务系统，建

学位

数字城市GIS分布式系统元数据本体论面向对象互操作AgentMASWeb Services技术XML网格计算对等计算

刑法中犯罪人格的分析研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

人格犯罪人格刑法

疗愈环境理念下的医院公共空间艺术化设计解析——以英国帝国理工大学医疗集团为例

期刊

疗愈环境建筑空间艺术化设计视觉艺术听觉艺术

抗时间同步攻击的数字视频水印方法研究

近年来,随着网络和多媒体技术的迅猛发展,数字多媒体产品的生产、复制、获得和传播变得越来越容易。然而,这在方便了合法使用者的同时,也为出于不同目的的盗版或侵犯生产者和

学位

信息安全信息隐藏数字水印图像水印视频水印版权保护独立分量分析时间同步鲁棒性多媒体检索

学会扮演社会角色有助成长

<正> 角色与角色期待整个社会犹如一座天然的大舞台,每个人都在这个舞台上扮演着一定的角色。我们说每个人都在扮演一定的角色,并不是说人们天天都在装腔作势或者

期刊

社会角色指定角色角色期待理想角色主观角色实际角色

2016年北京市儿童腺病毒感染疫情的流行病学和病原学研究

目的对2016年北京市儿童腺病毒感染暴发疫情及同期散发病例进行流行病调查和病原学分析,以了解腺病毒在北京市儿童的感染状况以及基因遗传特征。方法选取2016年10月下旬至12

期刊

儿童人腺病毒感染暴发散发遗传进化分析

食物链算法及其在供应链管理中的应用

人工生命是一门新兴学科，在信息科学和生命科学的研究领域中显示了巨大的生命力。该领域的研究对探索自然生物的计算原理、构造新型算法具有极其重要的理论价值和应用价值。本

学位

人工生命人工生命计算食物链算法供应链组成伙伴挑选供应链管理分销网络分销网络设计

体育视频语义内容分析技术研究

传统的视频内容分析抽取客观存在的感知特征,而用户所消费的往往是语义内容,这就造成了计算机自动分析与用户需求之间的矛盾。多媒体信息系统领域专家把这种矛盾称为语义鸿沟

学位

语义内容分析低层特征与高层语义之间的关联基本语义单元(BSU)基本语义单元之间的关系(BSURelation)体育视频

生物医学图像组织统计分类研究

生物医学成像仪器每天产生大量的图像数据。中国的数字人计划也已经获取了高分辨率、高质量的数据集。在这些来源不同的庞大数据中进行正常或病变组织、器官的定量分析与三维

学位

生物医学图像加权距离矩阵组合分类器随机森林期望最大化自助法最大强度投影法混合模型规律二次抽样初始聚类中心

基于空间划分的优化聚类算法及相关技术研究

与本文相关的学术论文