基于协同聚类算法的互联网流量与用户行为分析

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:zzy705664916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
到目前为止,我国的网络用户数已经接近我国总人口的50%,这充分地表明了互联网已经在人们的日常活动中得到了广泛的使用,并且极大地改变了人们的生活工作方式。因此,研究和分析互联网流量和网络用户行为已经成为网络研究工作的重要内容。与此同时,海量数据的不断产生也为互联网流量与用户行为的研究带来了挑战。本文的主要工作是运用数据挖掘算法和工具实现对大规模的网络流量和用户行为的研究与分析。具体来说,本文首先基于用户点击识别构建出对象级互联网流量分析模型——网页对象依赖图。该图模型描述了网页对象之间的依赖关系,具有维度高、稀疏、复杂,但局部稠密的特点。因此,为了深入研究该图模型的内部结构特征,本文设计并实现了一种协同聚类算法——非负矩阵分解算法,用于对大规模网页对象依赖图的分解,提取出四类典型的网页结构模式。最后,本文对这四类网页结构的特点和形成原因进行了深入研究与分析。本文的主要贡献包括以下三点:第一,本文创新性地提出了基于用户点击识别的对象级互联网流量分析模型——网页对象依赖图。该图模型描述了网络中用户请求的主对象和内嵌对象的依赖关系,为进一步研究和挖掘网页结构模式提供了有效的数学模型。第二,本文基于Spark分布式架构实现并优化了并行正交非负矩阵分解(ONMTF)算法。该算法可以实现对高维、稀疏的非负矩阵的降维,同时分解结果的非负性和近似正交性使其具有更强的解释能力。基于SVD的矩阵初始化方法使ONMTF算法可以得到较好的局部最优解。第三,本文利用并行的ONMTF算法实现了对大规模网页对象依赖图的分解,提取出四类典型的网页结构,从而挖掘出网络中存在的网页结构模式。
其他文献
多目标跟踪技术在面临着日益复杂的跟踪场景挑战的同时,也得到不断发展与广泛应用。群目标跟踪就是在这样的研究背景下提出的,打破了传统多目标跟踪的局限性,尤其在群组的分
作为宏小区的补充和扩展,家庭小区的出现在使得在增强室内覆盖的同时,用户能够获得更高的数据速率和服务质量。与此同时,家庭基站的引入也带来了宏蜂窝和家庭基站之间以及家
由于雷达和传感器的分辨率随科技进步而不断提高,得到的同一个目标的量测不止一个,此时,目标需看作是扩展目标,如果仍然使用传统的方法将量测和目标相关联进行跟踪已无法满足
SIP是应用层的多媒体通信协议。SIP协议结构简洁、易于扩展,已经被广泛地应用到VoIP、多媒体会议等场景中。由于IETF在设计SIP协议时主要考虑的是协议的易用性,所以SIP的灵活
多输入多输出(Multiple Input Multiple Output,MIMO)技术是当前无线通信技术中的重点研究领域,它通过空间复用和分集在无额外带宽的条件下提高系统容量,导致接收端信号检测
随着计算机软件复杂性的增加,出现了大量结构复杂的遗产软件。开发和维护人员意识到理解软件的总体架构设计与相关规格说明正变得日益重要。在此背景下,深入研究和理解软件代
随着移动设备的不断普及,越来越多的人将兴趣放在利用社会容迟网络进行数据传输。在社会容迟网络中,由于它自身连接不稳定、时延大的特性,数据通信通常采用“携带-存储-转发
Android平台的应用种类繁多,数量庞大,其中不乏将正版应用的代码和资源文件稍作修改而成的盗版应用,这些盗版应用给Android的应用市场带来了不少挑战。面对这些盗版应用,现有
电子政务对于政府管理上是一次变革。在逐渐趋于信息化的社会中政务信息化是一个前提条件,因此我国各地区都在积极的发展中,社会各界都在关注的电子公文管理在信息化中起到了
无线传感器网络应用广泛,很多领域要求网络中具有执行器,这种网络对瞬态故障非常敏感。本文从两个角度分析和研究了瞬态故障对于无线传感器网络的影响。在网络的节点层面,本