论文部分内容阅读
随着网络技术和业务的发展,网络用户数量逐年增加。人们在网络中既可以浏览新闻、收听音乐、收看视频,又可以发表言论、购买商品、游戏娱乐。网络已成为人们现实生活的延伸。人们在网络世界中交流互动,表现出各种网络行为。研究人们的网络行为,对于网络优化、网络服务的定制和推广都具有重要意义。流量监测技术通过对网络流量进行长期监视和测量,获取反映网络流量特征的数据。该技术最初被电信运营商应用于网络规划和QoS测量。近年来,运营商的工作重点正在由网络建设、运营和维护逐步转向为更广泛的用户群体提供优质服务。在这种情况下,网络用户行为分析对于运营商来说显得尤为重要,而流量监测技术则为网络用户行为分析提供了真实可靠的数据。本文致力于网络用户行为规律及其分析技术的研究,研究所用数据均来自于国内运营商城域网环境,这也使得本文的研究成果能够反映当前国内网络用户行为现状。本文主要内容和创新点如下:用户会话行为统计分析:分析用户的会话行为有助于了解用户对网络的基本使用情况,然而当前对国内网络用户会话行为的研究仍然不够充分,针对这一问题,本文借鉴了国外相关研究中的方法,从会话行为指标随时间的分布特征、会话行为指标间的相关性、会话行为中的帕雷托效应三个方面对国内某城域网用户会话行为进行了统计分析,并对发现的用户会话行为规律进行了总结。该研究成果对于认识和理解国内网络用户会话行为具有重要价值。用户上网时段喜好分析:许多工作研究不同时段的用户上网行为,然而目前尚缺乏对用户上网时间使用情况的研究。本文通过分析真实网络环境下的用户上网时间数据发现并验证了用户上网时间分布的近相似性。在该特性基础上,开发了基于快速分组的层次聚类算法(HCFG),挖掘用户的上网时段喜好模式。根据实际应用环境,我们提出了以时段重合率为指标的时段喜好显著性评估方法,并结合聚类结果结构指标和时间复杂度对HCFG算法进行了评估。评估结果表明HCFG算法能够显著区分不同模式下的用户喜好时段,达到了聚类的目的,并且其时间复杂度较低,是一种高效的用户喜好时段发现算法。用户Web喜好分析:Web喜好分析对于制定个性化服务和定向营销意义重大,目前缺乏针对用户全网Web喜好的分析。本文对城域网用户全网Web喜好进行了研究,通过对用户Web访问数据的统计分析,得到了各Web类型在用户中的流行程度的排名,并发现用户对Web类型的访问具有一定的选择性。聚类常用于发现用户Web访问喜好的主要模式,但也面临着如何实现对高维数据进行有效压缩的问题,针对该问题,本文提出了基于量值的频繁闭项集层次聚类算法(CFIHCQ),该算法通过频繁闭项集挖掘发现用户频繁Web访问行为,既实现了对数据维度的压缩,又达到了发现用户稳定行为模式的目的,该算法的结果可明确表示用户对Web类型的喜好程度。我们对该算法进行了较为全面的评估,主要包括聚类结果评估、算法参数评估和复杂度分析。评估结果表明,该算法的聚类结果对用户未来的Web访问行为具有较好的预测能力,聚类结果的结构特性好,且能够显著的表明用户的Web喜好模式,该算法在聚类数目的选取上有较好的灵活性,在大数据量情况下效率较高。用户Web访问状态转移研究:研究用户动态行为是网络用户行为分析的热点之一,目前多数相关研究关注用户对单个网站的Web访问动态行为,缺乏对用户全网Web访问动态行为的研究。本文首次从全网角度研究了用户的Web访问状态转移模式,对连续多天在线用户Web访问状态序列进行了统计分析,分析结果说明用户未来的Web访问状态在一定程度上可由历史状态进行预测。状态转移矩阵是研究状态变化的有效工具。本文提出了连续Web访问状态转移矩阵(CWSTM)的概念,并开发了基于熵的CWSTM聚类算法,该算法通过在CWSTM中引入熵,提高了聚类结果中确定性转移概率的识别数量。实验表明,状态转移模式中含有转移概率确定性越强,对于用户下一状态预测效果越好,从而说明通过引入熵提高确定性转移概率的识别数量是非常有意义的。