论文部分内容阅读
伴随着移动互联网的发展,蜂窝网络中的数据量呈爆炸式增长,电信运营商的话音等传统业务的收入不断萎缩,其自身产品的用户粘度也不断下降。如何利用蜂窝网络中的海量用户数据挖掘出有价值的用户行为模式,建立恰当的用户行为特征模型以优化用户的产品体验并提高营销的准确度,成为了近年来研究的热点。而聚类技术作为一种无监督学习算法,非常适合于探索数据中隐藏的模式。本文基于从运营商采集得到的海量蜂窝网络业务数据,分别从时间维度和空间维度开展了用户聚类的研究。论文的主要工作包括:一、重度用户的提取。本文通过绘制用户流量的劳伦兹曲线发现了用户的流量使用分布得非常不均衡,21.2%左右的重度用户消费了81.85%的流量;接着本文提取了部分对蜂窝网络有重要影响的重度用户进行研究,从流量使用、活跃时长、业务种类数、移动性这四个方面与普通用户进行了对比,结果表明,重度用户在流量使用、活跃时长和业务种类数方面都超过普通用户,而在移动性方面与普通用户没有明显差异。二、时间维度的用户聚类,发掘重度用户的流量使用模式。本文研究了时间维度的用户聚类和能够表征用户对不同时段偏好的特征向量。特征向量的创建过程为:将一天24小时按照生活规律分成5个时段,计算每个时段占全天的流量比值,除以该时段的小时数,构成用户的特征向量。接下来选择K均值算法进行聚类,并根据三种评估指标得出最佳聚类簇数K为4,这4类用户分别偏好在睡前、休闲、上班、通勤/用餐这四个时间段使用更多的流量,为运营商进行网络优化、精确营销等提供参考依据。结果表明,在时间维度上使用本文提出的具体聚类流程和创建特征向量的方案可以有效挖掘出不同用户的流量使用模式。三、空间维度的用户群组聚类,发现具有潜在高价值的用户群组。本文研究了空间维度的用户群组的聚类和能够表征用户群组价值高低的特征向量。用户群组的划分方式为:重要基站(用户在一段时间内使用流量最多的基站)相同的用户划分为一组。用户群组特征向量的创建方式为:把群组中每个用户的三个连续属性——数据流量、移动性(访问基站个数)、业务种类数进行离散化,根据离散化结果将每个用户投射到三维空间中的一个子空间中,用群组中落在每个子空间的用户比例作为该群组的特征向量。经过评估发现无法得到最佳结果。在排除了聚类算法选择不当的原因后,重新创建特征向量,仅使用数据流量和移动性(访问基站个数)两个维度,并提取热点基站进行研究,聚类结果评估发现最佳聚类簇数K为3或4,分析聚类结果时发现了具有潜在高价值用户的用户群组。结果表明,在空间维度上使用本文提出的具体聚类流程和创建特征向量的方案可以有效挖掘出具有潜在高价值用户的用户群体。