论文部分内容阅读
随着近年来网络技术、网络规模和网络业务的发展,互联网已经深入到人们生活的各个方面,成为人们生活中必不可少的重要组成部分。互联网对于很多人而言,与其说是一种获取和交换信息的工具,不如说为人们提供了一个现实世界的延展。通过使用各种网络业务,人们不但可以在互联网中查看新闻、搜索信息、收听音乐、观看视频和下载各种文件,也可以在游戏世界中与其他玩家协作游戏、在博客上发表自己的言论、在网络上进行购物、甚至在不同的虚拟社区中扮演不同的角色。人们通过网络业务与互联网世界相互作用,网络用户在与网络、网络中的各种信息以及与其他网络用户的交互中,表现出各种各样的网络行为。而对于这种网络行为的分析对于网络规划和优化、业务生成和改进等互联网发展的各个方面都具有极其重要的意义。网络测量是伴随着互联网的发展而发展起来的一系列方法和技术,网络测量一般可分为网络流量测量、网络性能测量和网络拓扑测量等几个方面。这其中,网络流量测量,或称网络流量监测,是最为基础和最能够直观表现网络运行情况的测量内容,一直在网络规划和优化方面发挥着巨大的作用。随着互联网的发展,网络运营商已经不能满足于单纯进行网络建设,提供网络接入和传输服务,而已经将重点逐步转向发展更为广泛的用户群体以及为网络用户提供更为多样化和定制化的优质网络服务上。在这种环境下,网络运营商迫切需要了解网络用户与网络互动过程中所表现出的行为规律。这样,针对用户行为的统计和分析成为网络测量的一个重点。本文所进行的研究,主要将网络流量监测的方法用于用户行为数据的采集,通过在多个维度对用户行为特征进行分析而对网络用户按照他们的上网行为进行分类。网络流量监测主要解决网络用户行为数据采集问题,但也面临着新的挑战,这些挑战包括网络用户的识别、网络业务的识别、行为数据的采集、网络规模和用户规模不断扩大等。在本文的研究过程中,我们评估了各种用户行为数据的采集方法,认为具有DPI功能的用户行为数据采集系统比较适合用户行为数据采集和分析的需要。我们在研究中所进行的数据采集即采用了自主研制的基于带有DPI功能硬件探针的用户行为数据采集系统。本文研究中所涉及的用户行为数据,全部真实来自国内电信运营商的典型城域网网络环境,覆盖城域网范围内较大范围的宽带用户,这也使得本文中的行为分析结果能够反映当前国内宽带网络用户的行为现状。1)网络流量监测和用户行为分析的基本方法。本文首先分析了网络流量监测的基本方法、网络业务分类和基于DPI的业务识别等相关关键技术。由于当前国内的宽带网络发展,宽带拨号用户成为宽带用户的主体,本文针对宽带拨号用户的上网行为,讨论了基本的数据采集和分析方法,并提出了以网络活跃度、业务行为和网站访问行为为核心的多维度的用户行为模型。在用户行为数据采集有了较大的突破后,我们能够采集和分析用户多个维度的行为数据并根据多个维度对用户的行为进行分析。本文重点关注利用多维度行为特征对用户进行行为识别和分类,这是网络用户行为分析中的重点内容。2)宽带拨号用户的上网行为分析。针对目前宽带网络占有主体地位的宽带拨号用户,通过对宽带用户动态拨号上下线原始数据的采集,分析了宽带用户在活跃度维度的行为模式,包括用户在上线、下线的时间、次数、在线时长、收发流量方面的基本数值规律,并使用K-means的聚类算法,以用户每日的上线下线次数、在线时长、收发流量、在线时段、工作日和周末分布数据为基础数据进行了用户的聚类,识别了宽带拨号用户在活跃度维度的主要行为模式,并对这些行为模式进行了分析。3)宽带用户业务使用行为分析。网络业务的发展以及用户通过业务使用与网络和其他用户进行互动,是宽带网络发展的内在推动力。宽带用户对于网络业务的使用是宽带用户行为分析中的重要方面。本文中针对宽带用户的业务使用维度,将网络业务归纳为10个大的分类,并对城域网宽带拨号用户按照每日业务使用量的角度,分析了这些用户的业务使用模式。本文根据业务数据的特点,提出了基于熵概念的聚类算法,对用户业务使用模式进行了识别和分析,验证了算法的有效性。进一步,对业务使用模式的用户群体规模、出现概率以及转移概率进行了分析,并对用户个体的业务使用模式进行了一些讨论。4)宽带用户网站访问行为分析。Web业务在互联网发展相当长的阶段里一直是杀手级应用。当前,Web网站多种多样,为互联网提供了最为基础的信息交互和传递的方式。Web业务也是宽带用户群体中使用最为广泛的业务,Web网站访问行为的分析具有重要应用价值。本文在Web访问行为维度对比了Web分析的不同数据采集方式和特点,分析了以网络流量监测的角度进行宽带用户Web业务行为分析和用户分类的方法,针对城域网宽带用户使用网站兴趣模式进行了数据采集和行为分析,并对宽带用户的网站访问模式进行了讨论。5)不同行为维度的相关性讨论。在用户活跃度、业务行为及网站访问行为三个维度进行了行为分析基础上,我们针对三个维度行为的关联关系进行了一些讨论。本文在用户行为数据全面采集的基础上,重点关注将用户上网行为数据按照多个维度进行归纳和分析,并根据各维度行为特征对用户上网行为进行识别和分析,按照多维行为特征对用户进行分类,较好地解决了网络用户行为分析的实际问题,数据结果验证了这种分析方法的有效性,分析结果加深了对当前的宽带用户上网行为的理解。