基于空间划分的优化聚类算法及相关技术研究

来源 :东北大学 | 被引量 : 11次 | 上传用户:yjn511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法,是20世纪90年代初针对“数据丰富、知识贫乏”问题应运而生的一种新技术。为了有效地从海量数据中提取信息,数据挖掘算法必须具有良好的可伸缩性,也就是说,数据挖掘算法的运行时间必须是可预计的、可接受的。 在众多方法中,基于空间划分的方法是一种有效处理海量数据的数据挖掘方法,其主要应用于聚类分析算法与孤立点检测算法。然而,现有的基于空间划分的方法却存在如下问题:第一,由于空间划分时产生的单元数与维数呈指数增长,该方法多适用于维数相对较低的数据。第二,在一些基于空间划分的数据挖掘方法中,如基于单元的聚类算法,如果划分粒度越细,则聚类精度越高,但同时粒度越细生成的单元数也越多,造成算法效率下降。如果划分的粒度变粗,则算法精度难以保证。 针对目前基于空间划分的方法存在的问题,本文提出了一种新的基于空间划分的索引结构CD-Tree。为了降低空间复杂度,在保持单元间关系的条件下,CD-Tree只保存了非空单元,使得聚类与孤立点检测过程易于实现。文中给出了CD-Tree详细定义,设计了CD-Tree的构建、节点删除、树合并等相关算法,分析了CD-Tree相关算法的时间复杂度,并与其它存储结构的时间复杂度进行了对比。通过理论分析,对于空间划分问题,CD-Tree结构要优于其它可用于存储划分后单元的结构。 CD-Tree适用于当空间划分产生较多的空单元情况,而空单元的数量与数据的偏斜程度有关,数据偏斜程度越高,则生成的空单元数越多。为了确定CD-Tree的适用条件,需要一个度量来衡量空间划分下的数据偏斜程度。现有的衡量数据偏斜的度量不能用于衡量空间划分下的数据偏斜程度,本文提出了一种新的偏斜度的度量DSF(Data Skew Factor)。DSF相当于划分后空单元所占的比例,可用来估计生成非空单元数目。另外,DSF还可用于优化CD-Tree结构及在数据流聚类中动态调整划分的粒度。 在CD-Tree及DSF基础上,本文研究了基于空间划分的优化聚类算法及相关技术,具体包括:基于空间划分的聚类算法;基于空间划分的数据流聚类算法;基于空间划分的孤立点检测算法。 在基于空间划分的聚类算法方面,分析现有的基于空间划分的聚类方法的特
其他文献
<正> 珠算乘法的种类较多,定位的方法也不一,结合公式法定位的较多,观察首数法也是由公式法演变而来,这种方法适用于任何方法相乘的两个因数,它属于算后定位。所谓观察首数法
数字城市是当今城市信息化建设的发展趋势。在信息科学支撑下,城市GIS系统得到了迅速发展,已经在城市的各个管理部门中获得了一定程度的应用。如何利用已建立的应用服务系统,建
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,随着网络和多媒体技术的迅猛发展,数字多媒体产品的生产、复制、获得和传播变得越来越容易。然而,这在方便了合法使用者的同时,也为出于不同目的的盗版或侵犯生产者和
<正> 角色与角色期待整个社会犹如一座天然的大舞台,每个人都在这个舞台上扮演着一定的角色。我们说每个人都在扮演一定的角色,并不是说人们天天都在装腔作势或者
目的对2016年北京市儿童腺病毒感染暴发疫情及同期散发病例进行流行病调查和病原学分析,以了解腺病毒在北京市儿童的感染状况以及基因遗传特征。方法选取2016年10月下旬至12
人工生命是一门新兴学科,在信息科学和生命科学的研究领域中显示了巨大的生命力。该领域的研究对探索自然生物的计算原理、构造新型算法具有极其重要的理论价值和应用价值。本
传统的视频内容分析抽取客观存在的感知特征,而用户所消费的往往是语义内容,这就造成了计算机自动分析与用户需求之间的矛盾。多媒体信息系统领域专家把这种矛盾称为语义鸿沟
生物医学成像仪器每天产生大量的图像数据。中国的数字人计划也已经获取了高分辨率、高质量的数据集。在这些来源不同的庞大数据中进行正常或病变组织、器官的定量分析与三维