论文部分内容阅读
随着网络的普及以及通讯技术的迅猛发展,大众上网更加便利,越来越多的人们通过网络获取大量的信息、完成信息的高效传播,这种社会状况推动了微博的迅速发展。据《第41次中国互联网发展状况统计报告》数据显示,截止2017年9月中国微博活跃用户规模达3.16亿。微博网络中拥有庞大的用户群体,微博用户产生了巨大的用户数据。微博用户数据中有价值的东西并不是杂乱无章无迹可寻的,而是需要将数据分析对象蔓延到以社区作为一个单位,需要寻找和挖掘社区,进而获取微博用户数据中有价值的信息。在复杂的微博网络中进行社区发现对完善微博的个性化推荐系统、精准广告投放、企业的市场营销等都有重要的理论及实用价值。因此本文的研究内容为如何准确地理解用户的兴趣,检测用户的兴趣,并迅速和有效的检测具有相似兴趣的用户。本文主要完成了以下几方面工作:(1)本文在分析与介绍微博兴趣社区发现研究背景及意义的基础上,对微博网络表示、网络性质、微博网络结构进行阐述,同时对当前文本表示模型与文本相似度计算方式的研究现状进行了研究总结和阐述,同时介绍了AP聚类算法与Newman快速算法的算法原理与实现步骤。(2)本文通过分析微博用户博文内容特征,对兴趣领袖和普通用户分别构建其兴趣表示方法。并在兴趣领袖识别研究中,本文通过对微博用户的行为属性、微博文本属性、用户社会属性分析,提出了一种新的用户影响力指标体系;通过分析用户关注关系,提出使用Page Rank算法对用户的影响力进行修正,最终实现用户兴趣领袖识别。(3)本文构建了基于内容的微博兴趣社区发现框架,提出了基于AP算法与Newman快速算法相融合的社区发现算法。文章在用户兴趣领袖识别的基础上,运用AP算法实现核心用户兴趣社区的发现;然后通过融合Newman快速算法思想,通过判断其余普通用户节点加入到核心用户兴趣社区模块度值的变化完成最终微博用户社区识别。(4)最后通过将本文兴趣社区发现方法与GN算法、LPA算法进行比较,证明本文提出的方法能很好完成微博兴趣社区发现。在对比实验中详细介绍了本文的实验坏境、微博数据的采集方式、实验中采用的评价指标。