论文部分内容阅读
在互联网技术蓬勃发展的今天,微博是一个全民织网的社会化信息平台。微博个性化服务的关键是将微博用户划分成具有共同特征的群体。如何进行微博用户群体划分?针对这个问题,本文提出了微博用户的上下层模型和用户相似性模型,从模型中提取有价值的特征,在此基础上提出微博群体划分的方法。首先,本文结合统计数据论证了微博属于社会化信息网络、微博的结构符合幂律分布,并基于微博信息的有向性提出了不同于关系网络的抽象上下层模型。由于微博网络的幂律性,研究上层网络的用户可以带来更大的效益,我们选取PageRank值最高的前10%的节点作为抽象上层用户,针对这些用户进行群体划分和特征提取。其次,综合考虑用户之间的静态特征相似性、拓扑结构相似性和微博文本相似性,建立Logistc Regression (LR)模型,提出了用户相似性的计算方法,利用L1正则化进行特征提取,得到对用户相似性有价值的特征。最后,定义一种有效的节点距离计算方法,利用K-Means算法对微博用户进行群体划分。本文在提取的新浪微博10万用户构成的完备图上利用Spark平台对模型的结果进行了验证。实验结果表明,用户相关性模型预测两个用户是否处于同一个圈子的准确率达82.98%;L1正则化的Logistic回归模型的在测试集上的预测准确率达77.27%;基于本文的微博群体划分算法,对于本数据集使用K-means聚类时的最佳社团数为460,此时得到的RJ值约为0.69。