论文部分内容阅读
互联网技术的快速发展产生了大规模的数据,如何处理这些数据并挖掘海量数据中包含的有价值的信息成了当前的热门话题。通过对网络访问记录等数据的分析和特征提取,获得有显著标志性和区分度的数据特征和模式规律,并基于此,建立网络人格和行为的研究体系,我们将这种方式称为网络指纹。本文以运营商DPI(Deep Packet Inspection)流量作为网络指纹的数据来源基础,完成了网络指纹系统的设计和应用,本文主要创新点如下:(1)系统梳理了 DPI数据的来源和含义,确定了多维度数据的表示和获取方法,搭建了面向网络指纹的大数据处理平台和数据仓库,从而建立了具有异构包容能力的网络指纹系统。(2)基于网络指纹系统,将其应用于用户App使用行为预测。具体来说,首先通过网络指纹数据构建用户-App二分网络,将用户和App视为节点,从而将用户App使用行为预测转换为用户和App的链路预测问题。然后从二分网络中提取了基于共同邻居和基于随机游走的两大类特征。最后将不同的特征进行组合进行模型的训练和评估。实验结果显示本文所提出的预测方法能有效的挖掘出用户-App二分网络中的相关网络结构信息,通过用户访问App行为模式的挖掘,用户App使用行为预测能达到良好的效果,预测的准确率达到90%以上。本文提出以网络指纹的概念和方法来处理大规模的数据,对研究网络空间和现实生活的对应关系有重要的意义,设计的网络指纹系统为用户网络行为的分析提供了极大便利,并且节省了大量的存储空间和运行时间的资源。基于网络指纹系统构建的用户App使用行为预测方法为用户行为分析提供了新思路。