论文部分内容阅读
微博作为一种新兴的社交媒体,近几年发展迅速,影响越来越广泛,逐渐成为一种重要的交流平台。微博网络的大量用户组成了不同的虚拟社区,有效挖掘具有网络结构内聚性和用户兴趣内聚性的微博社区,对于提高微博个性化推荐、微博市场营销以及链接预测的准确性具有重要意义。目前,经典的社区划分算法大多缺乏对节点之间的链接关系以及节点内容的综合考虑,其划分出的社区普遍具有较低的兴趣内聚性。现有的基于节点之间的链接关系和节点内容的社区划分算法主要是通过分析用户所发的微博内容获得用户的兴趣信息。而用户发布的微博内容通常包含大量的噪音信息并且微博的发布具有很大的随意性,这使得微博内容难于准确反映用户的兴趣。基于以上背景,本文分析了用户资料,分析发现用户资料信息可以很好的反应用户的特点,本文将这些信息统一称为用户的兴趣信息。论文针对微博社区发现问题展开研究,在对已有的社区发现算法进行分析总结的基础上,根据微博网络的特点,提出一种基于用户之间的链接关系和用户兴趣的微博社区发现算法,使得划分的社区能够更好的反映真实的社会关系,达到网络结构内聚性和兴趣内聚性。论文的主要研究内容如下:首先,论文介绍了复杂网络中常用的经典社区发现算法,对比分析算法在微博社区发现中存在的优势及不足;对已有的社区评价方法进行了分类和介绍,并对网络分析工具作了简单的描述。其次,介绍了两个比较著名的微博平台,并对微博网络的特点进行了简单的描述;分析了微博网络中常用的两种社区发现算法存在的不足,然后引出了基于用户兴趣的社区发现技术。最后,论文分析了微博用户的链接关系和用户兴趣,推导出链接相似度公式和用户兴趣相似度公式,结合两者计算出用户之间的总相似度。根据用户之间的总相似度将微博网络转换成一个无向有权网络,在Louvain算法的基础上本文提出一种新的社区划分算法对微博网络进行社区划分。使用社会网络分析工具Pajek对社区进行可视化,得到社区的可视化效果,对社区有了更加直观的认识,通过引入不同的社区评价指标与已有的社区发现算法进行对比,验证了本文方法的有效性。