聚类数据挖掘在商场中的应用及K-means聚类算法改进研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:a327581460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web 文档分类、图像处理等其它领域,都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。微软Analysis Services 分析服务软件提供了一种基于密度算法的聚类分析实用数据挖掘工具。本文使用该工具,基于重庆两百公司商场的OLTP 数据,创建了该商场销售分析用数据仓库。在此基础上建立了顾客特征聚类数据挖掘模型,对商场的客户群特征进行了聚类分析;接着,又将客户特征与所购商品类别进行了联合聚类,分析了顾客特征与购买商品类别之间的联系。本文给出了从分析目标确定,数据仓库建模,数据迁移,挖掘模型确定,挖掘处理到挖掘结果分析的全过程。目前,许多商场都使用了顾客卡,可以获得一定的顾客特征信息,这为顾客分析奠定了基础,本文的应用实例为这类应用提供了有益的参考。K-means 算法是聚类算法中主要算法之一。它是一种基于划分的聚类算法。该算法随机选取K(K 为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。如果初始聚类中心选取不合理,就会误导聚类过程,得到一个不合理的聚类结果。层次凝聚算法是一种不需要确定初始聚类中心的算法,它采用自底向上的方法,通过逐层合并相近的类进行聚类。该算法的缺点是计算量很大。本文对K-means 算法中初值的选取方法进行了分析和研究,采用对数据集进行均匀采样,得到一个能在一定程度上代表原数据集特征的子集,在子集中采用层次凝聚算法得到k 个聚类中心,最后在原数据集上以离这k 个聚类中心最近的点作为初始聚类中心进行K-means 算法聚类。由于层次凝聚算法是在一个小数据集上运行的,计算量不会很大。在进行K-means 算法聚类时,由于初始聚类中心接近真实值,可以大大提高聚类效果。实例计算证实了该改进算法的有效性。
其他文献
中华优秀传统文化的传承发展是高等教育的重要使命,传承优秀文化和创新文化教育,是高校研究治校方略的重要实践课题。山东文化产业职业学院紧紧抓住“立德树人”的实践落地,
创新创业教育是深化高等教育教学改革的重要环节,是民办高校应用型本科建设的发展方向。在“互联网+”的时代背景下,金融行业的发展变化对高等院校金融人才培养提出了新的要
模糊控制作为智能控制的一个重要分支,有着无需知道被控对象的数学模型和较强的鲁棒性两大特点,而加热炉是一个大惯性、非线性、慢时变的系统,不易得出精确数学模型,因而采用
本文针对食品安全抽样监测资金绩效评价管理相关内容首先介绍了食品安全抽样监测绩效评价内容,接着分析了绩效评价指标及评价方法、评价管理原则,指出了抽样监测资金中买样费
食品是人类生存的必需品。但是,随着社会的不断发展、科技的不断创新,食品安全问题也越来越备受人们关注。关乎食品是否安全的因素相当之多,其中,监管体制是一个重要原因。20
语文科目是语言性学科,其工具性较强,在高中学习阶段,语文是其他科目的基础,新课改要求学生在语文学习中要养成核心素养,为其他方面的学习打好基础。逻辑思维是学生在学习语
摘 要: 小学数学教学中数学模型思想是比较重要的,帮助学生建立一定的数学模型的思想,可以让学生更好地理解数学和外界事物之间的联系,有效地运用数学模型思想还可以达到很好的效果,能将抽象的数学和外部世界有效地联系起来。教师在课堂上巧妙地运用这种思想来解决对应的数学问题,可以优化学生解题的思路,激发学生的创新能力,很好地提高课堂教学的效果。本文在比较系统地介绍数学模型思想以及小学数学涉及的数学模型的基础
三维数据测量技术是计算机视觉领域的重要课题,在虚拟现实、文物保护、机械加工、影视特技制作、计算机仿真、服装设计等领域有着广泛的应用。基于结构光的三维数据测量方法
明清時期的澳門城市建築發展,在三個半世紀裡經歷了從農村到半農村半城、繼而城市化後進入現代,期間在城市建築風格上存在過耶稣會風格時期、歐陸風格時期及葡式折衷主義風格
为促进我国新生儿危重病医学的发展以及新生儿生命支持技术的应用与推广,不断提高危重新生儿的抢救水平,《中国当代儿科杂志》编辑部、广州市医学会新生儿科分会、广州市妇女