软子空间聚类算法研究与应用

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:uestchujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析可以自动发现数据集中隐含的簇类,是数据挖掘中非常富有挑战的研究领域。随着信息科学技术的快速发展,各行各业都积累了大量高维复杂数据,受维数灾难和稀疏性影响,基于传统距离度.量的聚类算法在处理高维数据时性能和效率下降甚至失效,所以研究高维数据聚类分析方法逐渐成为提高聚类有效性、拓宽聚类分析应用场景的重要方向。当前,子空间聚类由于其具备的在高维数据的不同子空间中寻找有效簇类的能力成为高维数据聚类分析的研究热点。子空间聚类分为硬子空间聚类和软子空间聚类两种,不同于前者旨在找到簇类所在的精确子空间,后者可以通过分配维度权重确定簇类所在的软子空间和每个维度对构成簇类的贡献大小。大部分软子空间聚类基于划分式聚类分析算法并引入计算特征权重的步骤,寻找目标函数最优解。当前软子空间聚类存在着聚类结果对初始中心点选择十分敏感、目标函数设计不够完备且参数难以确定的问题,而且可处理大数据的子空间算法也十分缺乏。本文从子空间聚类所面临的问题和挑战出发,首先通过提出一种新的初始中心点选择算法,为高维划分式聚类算法选择数目合适、分布良好的高密度数据对象作为初始中心点,实验证明,算法对数据集的维数、规模和簇类变化等不敏感,相比其他算法能够有效提高高维划分式聚类算法鲁棒性和聚类质量。接着,本文通过改进目标函数提出一种新的软子空间聚类分析算法,综合考虑类内紧凑度、类间分离度和投影子空间质量并实现算法的参数自适应调整,实验证明,该算法可以实现软子空间算法聚类有效性提升,有效适应各类数据集且聚类性能稳定。最后,本文基于大数据时代背景,基于MapReduce计算框架实现分布式并行化子空间算法,大幅提高子空间算法对数据集大小和维数的可扩展性,使其能够应用于泛实际大数据挖掘场景当中。
其他文献
根据BS7448断裂韧性试验标准,对国内自主研发的X70海底管线钢管管体及焊接接头的低温(0℃)裂纹尖端张开位移(CTOD)进行断裂韧性试验,并对其阻力曲线及断口形貌进行了研究分析
叉架类铸件在工业生产中以水玻璃砂型铸造为主。通过对铸件热裂缺陷进行分析,采用改进浇注系统以及放置泡沫板等措施,成功地试制生产出该类零件。同时,也确定了合理实用的铸
基于Matlab/Simulink平台建立了超级电容和动力电池混合驱动仿真系统。在保证制动效能和制动稳定性前提下,以充分发挥超级电容的高能量回收率,降低动力电池的放电电流为目的
目的:探讨GnRH激动剂联合小剂量HCG诱发排卵在IVF拮抗剂方案新鲜周期中的运用。方法:收治行拮抗剂方案治疗的IVF/ICSI新鲜移植周期125个,分为两组。A组给予GnRH-a、HCG扳机治疗,B
烷烃异构化是提高汽油辛烷值的重要方法。本文阐述了SO42-/MxOy型固体超强酸的表面特征及其酸中心的形成机理与调控方法。综述了SO42-/MxOy型固体超强酸催化剂轻质烷烃异构化
本文以琵琶协奏曲这一琵琶音乐类型为例,首先探讨了近现代文化融合背景下琵琶协奏曲的产生,并研究中西方音乐元素融合下琵琶音乐的发展,为当代音乐的实践提供借鉴和参考。
Bayes估计在武器系统性能评估中受到越来越多的重视,提出采用递进的Bayes估计方法,充分利用导引头研制过程中各阶段的实验数据,综合评估红外导引头抗干扰性能。文章采用层次
利用金属型铸造,研究了某车轮轴铸造工艺。发现原工艺中内浇道影响到铸件的收缩,出现了热裂等铸造缺陷。采用浇冒口改进工艺,侧面开出气孔,消除了热裂缺陷。采用自制的金属型