多维数据集聚类算法研究与实现

被引量 : 0次 | 上传用户:kalagou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析在数据挖掘理论和应用中都是一个非常必要的部分,是一种数据划分或分组处理的重要手段和方法。到目前为止,已有大量的数据挖掘聚类算法被提出来,其中很多聚类算法都有非常成功的应用。但是,它们主要继承多元统计分析学和模糊数学的结论,即主要是基于距离和阈值的各种聚类算法和改进算法。很多时候需要人为干预,需要行业知识、领域专家等因素的介入,大多数算法对混合型属性数据力不从心。尤其在商务决策、市场分析、刑侦破案、知识发现、生物学、Web文档分类等领域,需要新的适合于混合型属性数据的聚类算法,本课题就是在此背景下被提出来。 论文首先研究了具有代表性几种多维聚类算法,比如,硬聚类划分、软聚类划分和可能性聚类。这些算法一般最终都必须引入一个阈值才能确定类别,而实际上,这种阈值往往没有一个标准,这为用户增加了灵活性,但也增大了它的随意性,这正是此类算法的缺点所在。为此,提出了新的基于划分的聚类算法,本算法基于这样的核心思想:具有许多相同主要属性的有效集合是比较相近的,大致可以划分一类,即“并发最大化原理”;同时,对于某个特殊属性(标记)具有相同值的集合之间可能存在很大的相似性。即“类标最小化原理”;明确属于某个集合的子集,与原集合是一类的。但数据库(数据仓库)中的元组,可能同时属于多个集合,这正是算法的难点所在。本文利用求关联规则中的频繁项目集的算法作为辅助手段,来判断子集最大可能隶属于的集合,即“隶属度原理”;以及子集合与父集合之间的继承关系,即“继承原理”。本算法主要基于以上几个基本原理,实现半模糊化聚类。通过理论证明和实验表明,该算法是有效的,比K-means划分方法更能确定出有效的类别。本算法实现全局最优,对数据的输入顺序不敏感,实现的是动态聚类,对于高维数据的聚类是有效的,对领域知识的要求最小化。本算法是数据挖掘中聚类分析理论的进一步探索,尤其是对多维混合型属性数据的聚类。
其他文献
演讲人简介:$$ 现任四川省政协常委、中国抗日战争史学会副秘书长、四川省收藏家协会副主席、成都市人民政府参事、建川博物馆馆长。$$ 编者按:$$ 今年7月7日是卢沟桥
报纸
目的:研究卵圆孔未闭(PFO)与隐源性脑卒中(CS)的相关性。方法:分别选取郑州市第九人民医院2015年1月至2017年1月收治的CS患者58例(观察组)和同期明确病因的脑梗死(CI)患者60
本文以魏晋时期的笔记小说《世说新语》为语料,以现代语言学中的轻动词理论为理论基础,对《世说新语》中动宾之间的语义关系做了比较系统、全面的分类。全文对《世说新语》中动
利用探地雷达(GPR)检测路基土压实质量时,路基土介电常数的确定是保证探测精度和进行图像识别的关键技术之一。运用探地雷达对3种常见路基填筑材料(粉土、中砂与砾砂)进行了
目的 通过检测骨质疏松大鼠模型与颈椎病大鼠模型血清及颈椎间盘中的IL-6和TNF-α,观察细胞因子在两种模型的血清及颈椎间盘中的表达,以探讨骨质疏松与颈椎病相关性的内在机理,
个人言论专栏在我国发展缓慢,它在数量和质量满足不了读者阅读的实际需要。为此本文采用定性分析的方法对个人言论专栏在我国的发展、现状进行分析,通过比较的方法对其以后的发
对平板扬声器、电致伸缩聚合物薄膜扬声器和机电薄膜扬声器等典型平面扬声器的结构和声学性能进行了比较研究,并就平面扬声器在有源噪声控制,尤其是智能声学结构和有源声屏障
在对外汉语教学中现代汉语中兼语词“在”是学生掌握的一个难点。本文首先试图从历时的角度出发,探求“在”在各个历史时期的用法。通过对“在”的用法发展的探究与分析,通过对
本论文通过一系列实验,筛选出合适的基料体系,阻燃剂及阻燃增效剂、敏化剂及抗氧剂、抗铜剂体系,确定了125℃辐射交联阻燃聚烯烃电缆绝缘料的配方体系及最佳辐射剂量;研制出了与
半消声室和常规录音室环境下利用频谱分析方法探索古筝发声的空间分布特点即古筝发声时在空间不同位置处不同的音色特征,确定了若干特征位置,比较了各特征位置上同一古筝单音