面向电子商务的数据挖掘中聚类算法的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:CBN_cntjlz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息和知识经济时代伴随着计算机技术和网络技术的不断发展,企业纷纷建立自己的商务网站,开展电子商务活动,日积月累网站上生成了大量的与客户有关的记录信息,这些信息对企业来说应该是一笔非常宝贵的财富,如果能得到充分挖掘,发现背后蕴涵的有用知识,为企业业务决策和战略发展服务,企业将会在市场竞争中占据有利地位,应运而生的数据挖掘技术给出了有效的解决方法,它能够对大量的、不完全的、有噪声的、模糊的、随机的数据进行挖掘,提取隐含在其中的、事先不知道但又是潜在有用的信息和知识。而聚类分析是数据挖掘技术中重要的组成部分,从技术角度讲,它的主要目的是将数据空间中的数据点划分到若干个类中。其中,将距离相近的数据点划分到相同的类中,而将距离较远的数据点划分到不同的类中。 目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:划分方法、层次方法、基于密度、基于网格和混合方法等方法,这些方法各有优缺点。本文通过分析基于网格与基于密度的聚类算法特征,提出了一种基于网格和密度的混合聚类算法,通过分阶段聚类并选取代表单元中的种子对象来扩展类,从而减少区域查询次数,实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点,同时保持了基于网格的聚类算法的高效性,适合对大规模数据的挖掘,并且实验数据分析验证了算法的有效性。 在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题。只有合理的设置聚类参数才能聚类出高质量的聚类结果。然而被聚类的数据集分布情况在聚类前往往是未知的,所以难以设置合理的聚类参数。而设置不合理的聚类参数又使得聚类结果质量变低。所以聚类参数设置问题应该首先被解决好。本文对网格聚类算法进行了深入地分析研究。在研究了传统网格聚类算法的基础上,针对网格聚类算法对参数敏感的问题,提出了一种基于网格的参数自动化聚类算法,该算法使用参数自动化技术解决了算法对参数敏感的问题。并在综合数据集和真实数据集上进行测试,最后给出实验结果,同时分析了该算法的时间复杂度和空间复杂度。
其他文献
随着计算技术的发展,一种新的计算模式——普适计算,将根本性地改变人们使用计算机的方式。具有计算和通信能力的设备渗透到我们生活的每个角落,这些大量的可见的或者不可见的无
随着音频视频会议、多媒体广播、网络协同工作组的出现与迅速发展组播被广泛应用于一点到多点(one-to-many)和多点到多点(many-to-many)的通信中。安全组播需要满足:机密性(g
本文介绍了一种基于三星32位嵌入式网络微处理器S3C4510B的网络监控系统,主要实现了故障检测与自动定位、流量统计和入侵检测三个基本的网络管理功能。在系统的设计中,采用集中
电信运营企业是高技术密集型企业,也是较早使用数据库和数据库管理系统的企业,在多年的运营中积累了大量的历史数据。同时现在电信行业的竞争正变得越来越激烈,如何拓展市场,如何
在互联网这个信息海洋中,人们越来越感到信息的泛滥和查找的艰辛,于是用户便希望拥有一块根据自己的需要而显示相应信息的“私人空间”,基于用户的需求和自身发展的需要,向用户提
随着移动互联网的发展,智能移动终端的安全问题也益发严峻,作为最主流的移动操作系统之一,Android以其开放性和实用性获得了广泛的应用市场,但作为一个注重功能的系统,Android的安
当今互联网搜索引擎主要分为通用搜索引擎和面向领域的搜索引擎(也称为垂直搜索引擎),而后者又成为搜索引擎技术发展的一大趋势。因为在某些用户有特定要求的领域,通用搜索引
随着网络信息化的高速发展,网络中的可用Web服务资源日渐增多,通过Web服务集成可以充分利用已有资源,实现面向网络化、跨地域和异构平台的系统功能的一体化。但是,Web服务无法高
随着社会的不断进步和网络技术的不断发展,互联网用户和互联网站数量都在不断的增长。对网络服务器的可用性、可扩展性和安全性的要求越来越高。传统的单服务器模式,已经不能满
在多Agent系统理论中,为了尽可能细致的刻画Agent合理的行为能力,人们提出了合作的概念。其中,最为自然的一种合作形式就是联合,即系统中Agent个体保持和团体完全相同的价值