交易数据的聚类分析

被引量 : 11次 | 上传用户:hrz2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析,是将物理或抽象对象集合划分为由相似对象组成的多个类的过程。近年来,随着数据挖掘技术的发展,聚类分析作为数据挖掘的重要内容得到了广泛的研究,并应用于许多领域中。随着信息与互联网技术的发展,人们拥有的数据不仅数量越来越庞大,而且数据类型越来越复杂、结构越来越多样。因此,现有的聚类算法在实际应用中仍然面临两个问题:1)算法在处理大规模数据时,性能急剧下降甚至无法完成数据分析,不具有可伸缩性;2)很多聚类算法局限于理论上的分析,较少考虑具体应用中的实际数据特征与差异,因而实用性差。交易数据是一类特殊的类别数据,具有数据量大和维数高的特点。典型的交易数据包括购物篮数据、WEB日志数据、客户信息、病人诊断记录以及图像信息等,通常产生于零售业、电子商务、医疗以及电信、保险、银行等行业。因此,针对交易数据,研究可伸缩聚类分析方法是一个同时具有挑战性和实际意义的课题。本论文以大规模交易数据为研究对象,重点研究大规模交易数据聚类分析中的一些问题。本文的主要研究内容和创新点包括以下几个方面:(1)提出了可伸缩的大规模交易数据聚类分析框架,即SCALE(Sampling,Clustering structure Assessment,cLustering and domain-specific Evaluation)。SCALE的设计具有下列特点:1)针对交易数据的特征,提出采用覆盖密度以及加权覆盖密度有效地测量一组交易数据的整体相似度;2)基于加权覆盖密度设计和实现可伸缩的WCD交易数据聚类算法;3)采用聚类结构探测方法生成候选的聚类数量,有效地减少聚类算法参数空间的搜索;4)将聚类结果评估集成到该框架下,用领域特定的度量辅助用户选择最优的聚类结果。实验结果表明SCALE框架下的交易数据聚类分析能生成高质量的交易数据聚类结果。(2)研究了交易数据聚类结构探测的问题。针对通用类别数据聚类结构识别方法BKPlot的两个弱点,即噪音候选聚类数量多以及处理具有大量数据项的交易数据集时算法性能下降,提出在交易数据集找出一组候选的最优聚类数量“Ks”的新方法,即DMDI方法。以自定义的交易聚类模式相异度度量为基础设计和开发出一种凝聚的层次聚类算法,即ACTD算法。利用ACTD算法在聚类过程中生成的合并索引值可发现候选的最优聚类数量。实验表明,DMDI方法能有效地识别交易数据聚类结构。(3)研究了交易数据聚类分析结果的稳定性问题。传统基于划分的聚类方法的聚类结果常常陷入局部最优,而SOM神经网络的聚类结果稳定,但只能处理数值型数据。为此,本文提出了一种基于GHSOM神经网络的交易数据聚类分析方法,即GHSOM-CD方法。该方法在GHSOM网络学习算法中引入覆盖密度的概念,改进了神经元权值更新方法以及网络训练停止条件。实验表明GHSOM-CD方法在交易数据集上产生的聚类结果更有意义,是SOM神经网络在类别数据聚类分析上的扩展应用。(4)研究了频繁项集的压缩问题。针对频繁项集挖掘中频繁项集数量过多的问题,研究并提出一种动态聚类的方法,即EESC算法,近似压缩频繁项集。该聚类方法基于自定义的频繁项集类内相似度度量:表达式相似度和支持度相似度。实验结果显示这种近似的频繁项集压缩方法是可行的并且压缩质量好。
其他文献
非真实感绘制是在传统的计算机图形学基础上发展起来的,既是基于真实感绘制技术的,非真实感绘制也可以被看成为一种特殊的真实感绘制技术,对于手绘图的真实模拟。在近30年内,
我国社会正面临着人口老龄化的趋势,人口老龄化是社会经济进步和科学文化发展的必然结果。本文分析了老龄化和老龄问题、老年人和老年人生理和心理变化的基础上,总结出了老年
1.盐藻优良藻种选育在温度为25℃,盐度为31,光照强度为100μmolEm-2s-1的条件下,对中国海洋大学微藻种质库保存的8株盐藻进行培养,筛选出3株生长快、活力强、光能转化效率高
本文针对影响Camembert干酪(CM)品质及得率的几个关键因素进行研究,正交优化其加工工艺。应用添加谷氨酰胺转氨酶(TG)制干酪及超滤技术(UF)浓缩原料乳,以期得到品质优良、得
随着社会经济的快速发展,水资源供求矛盾日益激化,水资源承载力的研究已成为水资源科学领域的一个重点与热点问题。但水资源承载力的研究至今仍未形成统一的概念与理论体系。
2000年9月《财经》杂志发表了以篇揭露“基金黑幕”的文章,在社会各界引起广泛关注。随之而来,2001年我国著名的金融经济学家夏斌主持进行了《中国私募基金调查报告》,从而使
自我国加入WTO之后,随着中国经济的飞速发展,中国现在已经步入了“世界工厂”时代,成为世界上重要的出口国之一。由此,中国也成为了世界上港口吞吐量和集装箱吞吐量最多、增
目的探讨针对性生物反馈训练方法对合并隐性脊柱裂的功能性便秘(FC)和非潴留性便失禁(NRFI)患儿治疗效果。方法对34例FC患儿和21例NRFI患儿进行常规保守治疗,在保守治疗无效
经济增长是宏观经济学的核心问题之一,也是经济学家和各个国家始终关注的话题之一。长期以来,经济学家对经济增长进行了大量的研究,众多经济学家从不同角度,给出了各种答案。传统
本论文采用遥感技术等现代数字信息技术作为核心技术,利用CBERS CCD数据分析北京城区绿地变化,可以为“绿色北京”的规划和建设提供支持。本文的研究内容主要有以下几个方面: