基于混合类型数据分析的用户聚类方法研究及应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:forest_28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户聚类分析的目的是分析核心用户群体的特征,可以应用于精准营销、商业决策、安全预警等领域。有关用户的数据通常是混合型数据,包括数值类型、分类类型和多维非对称特征,即多值离散特征,如兴趣、爱好等。然而,在使用K-means等传统聚类算法对用户进行聚类分析时无法深层次挖掘多值离散特征包含的信息。针对这一问题,本文构建了一种结合关联规则与多值离散特征的聚类方法(A Clustering Method that Combines Association Rule and Multi-valued Discrete Features,ARMDKM),提高了用户聚类的质量。同时,针对当前用户聚类分析没有考虑用户行为之间的关联与重要性的问题,构造了一种基于用户特征重要性的用户聚类算法,提高了聚类分析的准确度。本文主要研究工作如下:1.构建一种结合关联规则的用户聚类方法。当前用户聚类算法无法有效地分析用户数据中存在的多值离散特征,这导致数据的利用率以及用户相似度计算的准确性降低。本文将关联规则(Association Rules,AR)引入到Jaccard距离的计算过程中,构造了一种用户之间相似性度量的方法,并基于K-modes聚类算法的思想对聚类中心的更新方法进行了改进。实际数据的实验结果表明,ARMDKM算法在轮廓系数(Silhouette Coefficient,SC)指标上的表现优于两个比较算法,提高了用户聚类的质量。2.构建一种基于特征重要性的双层用户聚类算法(A Two-layer User Behavior Clustering Method Based on the Importance of Feature,TL-FIUC)。在用户行为分析领域中,不同用户的数据特征不尽相同,且不同特征对于用户分析的重要性存在差异。为了综合考虑用户数据特征之间的权重关系,本文利用一种结合K-means++与随机森林的无监督特征选择方法,对用户数据特征进行特征重要性评估以获得特征的权重参数。最后基于谱聚类的思想,通过对用户数据进行聚类分析,以得到最终的聚类结果。实验结果表明,该算法相较对比算法在各指标上均有提升。
其他文献
随着神经科学与类脑计算的发展,构建同时具备低功耗、低延迟和高精度特性的类脑认知系统,成为近年来人工智能研究的重大热点和难点问题。构建深度脉冲神经网络(Spiking Neura
Ga2O3是一种新型的超宽禁带半导体材料,禁带宽度约为4.9 eV,具有特殊和优良的光学、电学、气敏、催化等特性,在日盲光电探测器、超高压功率器件、发光二极管、气体传感器、太
2017年3月-2018年12月,在云南省昆明市、大理州、迪庆州、德宏州和楚雄州的35个采样点共采集各种野生小型哺乳动物肌肉样品1153份,包括啮齿类23种1037份,食虫目4种96份,树鼩目1种20份;2017年10月,在广西壮族自治区玉林市农贸市场采集37份源于不同个体的家犬肌肉样品。在1153份源于不同个体的野生小型哺乳动物的肌肉样品中,检查到有肉孢子虫感染的计193份,自然感染率为16.7
时空孤子对非线性科学发展具有十分重要的意义,因为其本身的粒子特性和全光调制的潜力,自提出以来,研究人员始终抱着极大的热情寻求一种在空间和时间上同时局域的孤子波。近
近几年,随着水产养殖业的蓬勃发展,人们越加注重饲料中添加剂的应用,比较典型的是新型饲料添加剂--胆汁酸(Bile Acid,B&A),它在水产动物养殖业中被越来越广泛地应用。本试验以大菱鲆(Scophthalmus maximus)(23.12±0.10 g)为研究对象,通过在不同脂肪水平、不同脂肪源饲料中添加B&A对大菱鲆的影响,探究B&A对大菱鲆生长性能、消化酶活力、抗
图像超分辨率重建在国防军事、医疗影像、人脸识别等领域具有广泛的应用,是近年来计算机视觉领域的研究热点之一。图像超分辨率重建是指由单张或者多张低分辨率的图像转换为
虚拟场景发展要求有更自然的交互范式以满足用户需要,图形化范式可以作为自然范式的有效补充,但目前对图形化范式在虚拟空间的使用研究较少。本文提出了一种SOMRM交互范式,将
SUS 304不锈钢是常见的奥氏体不锈钢,在船舶、航空航天、核电等行业中有广泛应用。激光焊以焊接速度快、热影响区小、高深宽比、精确控制等优点被广泛使用。由于中厚板焊接过程中能量的传输与物质交换过程复杂,易产生缺陷。为了增加熔深,改善焊缝成形,本文采用内径为2mm的喷嘴对8mm厚的SUS 304不锈钢板光纤激光焊接的光斑中心进行吹气,研究细管径侧吹气体对光纤激光中厚板焊接过程及成形的影响。此外,利用
斜纹夜蛾(tobaccocutworm,Spodopteralitura)属鳞翅目(Lepidoptera)夜蛾科(Noctuidae)。斜纹夜蛾是一种世界性的多食性大害虫,是我国粮、棉、烟草等经济作物,尤其是蔬菜的重要害虫。该害虫可危害109个科共380多种植物,包括蔬菜、果树、花卉、草坪、棉花、玉米和烟草等。昆虫生殖行为,是研究性选择和物种进化的基础,对害虫防治和益虫利用也有重要意义。神经肽是
可见光通信具有可拓宽频谱资源、绿色节能、无电磁干扰、保密性强等优点,是传统射频通信的一种补充方式。LED可见光通信是指利用LED作为系统中的光源,使用驱动电路对LED明暗