论文部分内容阅读
互联网应用到各行各业,用户在使用各种不同业务的同时产生并积累了大量的历史数据。海量用户数据中蕴藏着丰富的信息,已经成为计算机时代最宝贵的资源。应运而生的数据挖掘技术和云计算技术旨在挖掘用户大数据中蕴含的价值。用户数据中包含用户行为特征,而用户行为通常和多种社会因素和技术参数相关,这些会影响不同场景下用户的角色及特征规律。衡量用户行为的一个很重要的准则是用户活动水平(活跃程度)。本文基于大数据背景,探讨了用户特征,给出了一种基于模糊决策树和回声状态网络算法的用户活跃度预测方案并进行仿真分析,同时对其未来应用发展进行了展望,具体包括以下几个方面:首先,本文介绍了论文的背景并给出相关理论基础知识,包括:结合现有的数据挖掘技术,调研了用户特征及活跃度分析的现状;总结了神经网络和决策树应用于预测的关键技术;讨论了时间序列和公理化模糊集理论。其次,对移动互联网中用户数据特征进行分析,找出存在的一般性规律。再次,为适应用户多维模糊属性的特点,我们将模糊集合理论应用于模糊决策树,并采用模糊决策树生成规则作为神经网络输入层到隐含层的权值,并应用到小波最小复杂度回声状态网络中,生成基于AFS决策树初始化神经网络输入权值的语义算法(SDESN,Semantic Driven Echo State Networks)。该算法继承了小波最小复杂度回声状态网络的结构简单、预测精度高等特点,同时利用模糊决策树进行分类预测时考虑了区间值数据和多值多标签数据中的所有特征,得到模糊概念,克服了二值分类的尖锐性,能够给出介于二值之间软化的中间类别。另外,我们还对SDESN算法进行了性能仿真并对移动互联网的用户活跃度进行预测,在早期阶段跟踪潜在流失客户并为企业决策提供视角。最后,讨论在大数据背景下用户特征及活跃度分析在未来网络中扮演的角色,并给出基于SDESN算法在其中的应用视角。