论文部分内容阅读
随着网民规模的稳健增长,网民对网络服务的需求不断提升,接入网用户行为(Access Network User Behavior,ANUB)数据也变得海量而繁杂。从先验知识不足且含噪声的海量ANUB数据中提取有用的知识,进一步完成对ANUB的智慧化和精细化分析,必须采用契合应用场景的数据挖掘技术并进行相应改进。基于划分的聚类算法,如K-means算法可以快速处理海量高维度的数据集,因此被广泛应用于海量且属性丰富的ANUB数据的分析研究中。然而该算法需要预设聚类个数,并且不适用于含噪声的数据集。基于密度的聚类算法,如DBSCAN、OPTICS和SNN算法可以发现不同大小和形状的簇,同时对噪声的处理具有鲁棒性。然而这些算法大多存在先验参数的选择问题。密度峰值(Density Peak,DP)聚类算法可以在不指定集群数量的情况下检测任意簇集。然而当DP算法面对各簇密度差异大的情况,便无法识别出数据集中的所有簇集,特别是面对ANUB数据,其不同类型的用户规模差异大。2016年,密度比估计(Density Ratio Estimation,DRE)方法提出了一种称为Rescale的重新缩放方法,并且优化了DBSCAN,OPTICS和SNN算法,让它们在在寻找具有不同密度的簇时,得到了很好的实践。然而,这些改进的算法仍然会受到先验参数的影响,因此无法应用于ANUB分析中。为了对ANUB进行分析和建模,从而为网络流量控制层提供流量管控依据。本文通过引入DRE方法,提出了基于密度比估计方法的密度峰值(Density Ratio Peak,DRP)聚类算法。为了快速地对海量区域上网行为数据进行分析研究,从而深入认识网络的运行和使用情况,进而动态调整网络结构和带宽。本文通过融合对噪声敏感度低的DRP算法和快速运算大数据的K-means算法,提出了一种改进的DRP-means算法。在划分出聚类簇的基础上,利用Apriori关联算法挖掘出各区域上网行为之间的关联性与差异性,为提高各区域网络质量提供依据。通过与传统聚类算法的性能比较,本文提出的DRP算法更加适用于用户上网行为的分析。本文提出的DRP-means算法对数据预处理,不仅能够获得最佳的划分集合,还大幅度提高了聚类过程的效率,弥补了K-means算法需要人为预设聚类个数而导致聚类结果不稳定的缺陷。DRP-means算法可以更加准确且细致地刻画区域上网行为这样海量高维的数据集。