论文部分内容阅读
近年来,随着移动互联网用户数量和通信数据量的不断增长,需要处理的业务流量有着显著的大数据特征。利用移动数据分析移动用户的行为和提高网络的服务质量成为移动互联网研究的一大热点。由于各类大数据技术层出不穷,处理大规模的用户移动数据变得更加便利。在各种大数据工具中,Hadoop作为大数据问题的有效处理平台,Flume作为一个分布式、可靠、和高可用的海量日志聚合系统,广为大家使用。论文首先对大规模数据处理工具Hadoop和海量日志聚合系统Flume的架构和原理进行了简要介绍。大量数据从采集端到Hadoop集群需要数据分发系统作为桥梁。在本文中,我们设计并实现了两类数据分发系统的方案,分别基于Flume和自主研发的Importer,并比较了各自的优劣性。基于海量移动数据的用户各类行为分析对运营商意义重大。在各类分析中,分析用户移动模式和进行用户移动性预测,可以帮助网络管理者提供高效的移动性管理,制定更合理的移动通信协议。本文利用我国南方某省移动蜂窝网络真实数据,使用MapReduce计算模型分别进行了用户整体和个体的移动模式分析。在用户整体移动性中,我们以用户群体为单位,从真实的移动网络流量中分析了用户接入量、漫游量、热点小区等指标。在用户个体移动性分析中,我们提出了两种基于时间的用户个体移动性预测算法,分别为定制的智能时间分割(Intelligent Time Division,ITD)方法和基于时间的 Markov(Time-Based Markov,TBM)方法。利用南方某省运营商三周连续数据,我们将用户聚类为固定类用户和移动类用户,并分别使用以上两种预测算法对两类用户进行位置预测。通过实验,我们证明了所提出的方法比基准方法有更高的预测准确率,同时也证明了不同移动特点的人应该使用不同的预测方法来预测移动性。这对运营商和位置服务提供商有重要意义。