谱聚类算法在数据挖掘中的应用与研究

被引量 : 0次 | 上传用户:terrychou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息时代,信息的重要性与日俱增,人们期待着有价值的信息和知识,并从中发现规律。作为数据挖掘的重要工具,聚类分析已经成为了数据挖掘工作者和研究人员重点研究的对象,可以说聚类分析算法不仅仅在数据挖掘领域挖掘“价值”,其本身所具有的价值更是无可取代。谱聚类算法可以做到比一些传统的聚类算法聚类效果更好,速度更快,主要是因为其算法复杂度与数据维数无关,只与数据点的个数有关,这也决定了它在对高维数据的处理上拥有更优异的表现。同时,它的算法步骤简洁明了,容易实现,将数据集合转化为图,并利用数据矩阵存储数据的各类特征,并通过矩阵的特征分解来进行聚类。谱聚类算法由于继承了谱图分割的优越性,目标函数的最优结果倾向于全局最优而不是局部最优,使其在凹陷分布、密度不均、形状复杂的数据集上聚类效果更好,这也决定了谱聚类算法能够解决众多的实际应用问题,具有非常高的研究价值和远大的应用前景。本文首先引入信息熵的概念,提出了新的Rank排序算法,对拉普拉斯特征向量进行排序,使得谱聚类所使用的特征向量不再局限于以往按特征值大小来排列的前k个特征向量,提高了谱聚类算法在中小规模数据集上的聚类效果和质量。同时,在该Rank排序方法的基础上,针对谱聚类算法对大规模数据聚类效率和效果不佳的缺陷,本文做出了进一步的改进——结合信息论和统计学的知识,利用样本数据与原始数据的结构相关性,对海量、高维数据的特征向量排序的Rank算法进一步改进,提出了新的针对海量数据的ReRank算法。实验结果表明通过ReRank算法对大规模数据进行特征向量排序,使得改进后的谱聚类算法在大规模数据上的执行效率和聚类效果得到了大幅提高。
其他文献
H科技园管委会属广州市的事业单位,主要负责行政区域内的信息园、科技园、创意产业园的规划、建设和管理工作,并且通过整合区域里各类资源,培育出特色的新兴产业。因H科技园
近年来张家口经济发展虽取得了显著成就,但与发达地区比,差距较大,仍属经济欠发达地区。经济发展既存在诸多问题,又面临着新的机遇。文章对未来张家口经济发展战略提出了建设
刑法第二百二十四条对合同诈骗罪规定为“以非法占有为目的,在签订、履行合同过程中,骗取对方当事人财物,数额较大的行为。”合同诈骗罪作为一项独立罪名,为保障他人合法财产
本文分析了大学生网上开店流行的原因、网上开店的利与弊,并在此基础上对大学生网上开店提出了建议和要求。
本文以E龙旅行网饭店预订网页上顾客对于酒店的评分为样本,选取舒适、价格、服务和设施四个因素为影响因子,运用多元回归分析和灰色关联分析法对北京不同星级酒店顾客满意度
目的:在传统中医理论的指导下,结合现代诊疗手段,以患者治疗前后的临床症状和相关的辅助检查数据为依据,观察中西药人工周期疗法治疗卵巢储备功能下降的临床疗效,并与西药人
网络营销从传统营销来,又与传统营销有着巨大的差别,传统营销既是网络营销的基础又是其发展的起源。本文分别阐述了传统营销与网络营销信息传播方式的特点及主要方式,进而对
目的:通过对慢性非萎缩性胃炎300例患者临床流行病学调查,旨在探讨该病中医证型与焦虑抑郁的相关性。方法:根据病例纳入标准随机选取昆明市中医医院门诊及住院部的300例慢性
笔者专注于中国专业线护肤品营销(美容行业)近十年,对此行业深谙内情,特别是其独特的“会议营销”模式。此一模式主要基于顾客感知价值,要求对消费者心理的准确把握,目前在中
国家之间,甚或地区之间在资源禀赋和经济发展水平上往往存在着诸多差异性。正因为这种差异性的存在才有了各国所拥有的比较优势,但比较优势的发挥需要通过诸多方面的合作来实