论文部分内容阅读
信息化和数字化的迅速发展,使得互联网成为与现实空间相对的最重要的虚拟空间。传统虚拟空间中的社会分层研究多基于网络信息资源占有的机会和能力等客观指标,并未涉及用户使用网络资源的具体行为及上网信息的内容和性质等因素。学术界比较公认的是虚拟空间中也存在着社会分层现象,但对其是否延续现实空间中的社会分层结构观点不一。针对以上问题,本文以中国互联网络信息中心提供的用户行为大数据为基础,主要做了以下工作:1、虚拟空间与现实空间社会分层映射。对照用户属性表,将样本数据按照用户在现实空间所处的社会阶层进行划分,从在线时间和上网内容两方面进行社会分层特征研究。对在线时间数据进行均值方差处理,观察不同阶层用户上网行为的稳定性。将用户点击的软件进程信息向量化,然后使用Word2vec算法提取出能代表各阶层用户行为特征的词向量,此外,计算了用户在不同类别的软件中消耗注意力的持续时间。分析不同阶层用户在线时间的稳定性、上网行为的规律性及消耗注意力的软件类别,发现虚拟空间延续着现实空间中的社会分层结构。2、不同阶层用户的行为特征提取。提取了教育、经济、年龄等不同维度下每类用户的点击软件进程数据,构建词汇表,得到每种软件进程的one-hot向量,根据one-hot向量计算进程的词向量表示。通过Word2vec算法中的skip-gram模型训练出能代表各类用户行为特征的词向量,用K-means算法将所得特征进行聚类。从实验结果来看,较高阶层用户能更好的利用网络资源进行办公和购物,较低阶层主要将注意力消耗在休闲娱乐类软件上。3、提出了W2V-BP模型,并用W2V-BP模型对用户的在线行为数据进行社会分层识别。通过梯度下降优化,数次迭代调节参数,训练出了基于Word2vec算法的神经网络模型(W2V-BP)。该模型以用户的在线行为特征作为输入,用户的阶层类别作为输出,识别准确率为90.22%。研究结果表明虚拟空间中存在能够区分人类社会分层的行为特征。最后,与时下较为高效、普适的LSTM、SVM模型进行预测模型对比实验,发现本文的W2V-BP模型与它们比较,识别率分别提高了5.54%和3.06%。