论文部分内容阅读
社交网络是近几年来迅速崛起的一类新型Web服务,它们以用户之间的在线朋友关系为基础,使得人们可以在朋友间自由的分享兴趣和活动。Twitter和新浪微博是第二代社交网络,即微博服务的代表。随着移动互联网的发展,微博已经成为了最为流行的信息传播平台,拥有巨大的影响力和海量用户社交数据。社会网络的分析和挖掘目前已经成为了研究的热门领域,社区发现作为社会网络分析中的重要方面,也获得了极大的关注。现有的社区发现方法大多面向全局网络,以某节点为中心的局部网络社区发现算法比较缺乏;现有方法主要考虑网络的连接结构,忽略了亲密度、影响力和用户交互行为等社交因素;现有方法大部分是单分类算法,能够发掘重叠社区的多分类算法尚不完善。论文基于以上问题,提出了基于用户亲密度及影响力的微博社交兴趣圈挖掘算法。所提算法基于微博用户个人交互数据,采用了逐步扩充的策略,同时考虑到了网络连接结构、用户亲密度和影响力三方面因素,主要工作如下:1、在中心用户的一级交互图中,利用图论中k团社区的理论,寻找能够形成用户多个社交兴趣圈的种子集合。此工作主要考虑网络连接结构,生成高质量的社交兴趣圈核心,同时初步确定用户社交兴趣圈数量。2、形式化定义了用户之间的亲密度及用户与现有社交兴趣圈之间的归一化距离,之后设计了贪心算法,基于用户的亲密度对所发现的社交兴趣圈种子进行扩充。3、基于用户的交互行为对PageRank算法进行了扩展,用来计算微博用户影响力,进而在中心用户的二级交互图范围内,基于影响力对社交兴趣圈再次扩充,得到最终挖掘结果。此外,论文设计了社交兴趣圈自动标注算法,利用微博用户的兴趣标签作为数据,通过挖掘每个圈中成员的共性,并结合前文计算的用户影响力和TF-IDF的思想,为发现的每个社交兴趣圈自动标注标签。论文还开发了微博社交挖掘与分析试验平台,可以直观的显示出算法的执行效果并且收集用户的反馈数据,用以进行算法的对比实验。实验结果验证了所提算法的正确性和有效性。