论文部分内容阅读
互联网快速发展的步伐将Facebook、Twitter、新浪微博等微博网络融入到大众生活中。在微博网络中,无数用户不仅可以书写自己的日常经历,而且可以转发其关注的其他用户发布的内容。同时,每个用户自身还填写有地址、标签等属性信息。因此,微博网络承载着巨大的信息量。通过社区发现可以将网络用户按照兴趣爱好或者互动频率、属性等信息分到各个社区中。假如以兴趣爱好来对用户分组,将每种兴趣爱好分别看做一个社区,那么拥有不只一种兴趣爱好的用户就会同时出现在多个社区中,这时就出现了重叠社区。本文提出基于主题的微博重叠社区发现方法,其中包括两部分——基于主题分布的微博重叠社区发现方法,以及基于主题传播的微博重叠社区划分方法。这两部分的区别主要是研究对象不同,前者研究微博平台上目前已存在的微博用户,而后者研究刚注册使用微博的新用户。由于社区发现能帮助微博平台上目前已有的用户找到其所属的多个社区,但当平台上又出现一些除现有用户以外的新用户,并要获取这些新用户的社区分布时,如果再对新用户与之前已经实现社区发现的用户一起重新进行社区发现,不仅使之前的社区发现结果对之后的工作没有起作用,而且会加大工作量。所以本文又在社区发现基础上提出社区划分,来将微博平台的新用户定位到之前经过对微博平台上已有用户进行社区发现得到的各个社区中,而不用重新进行社区发现。其中,本文提出的基于主题分布的微博重叠社区发现方法,通过LDA主题模型获取微博平台已有用户的多条微博组成的长文档包含的多个主题,以每个主题为一个社区,将用户按照其长文档的多个主题分到多个社区。本文与传统使用LDA的工作不同之处在于,除了将文档中的词按照概率分到各个主题下,本文还根据主题下分布概率较大的各个词语的含义判断每个主题的实际意义,例如音乐、旅游等,而不单单用序号区别每个主题,这样就能知道微博用户所属社区的真正含义,具有实际意义。同时,为了避免在为微博网络中出现的新用户找到其社区分布时将其与之前已实现社区发现的用户放在一起来重新进行社区发现,本文又提出基于主题传播的微博重叠社区划分方法,构造词语关系网络,将已知社区分布的用户微博中与未知社区分布的新用户微博中关键词最为相似的词语的主题传播给其关键词,然后根据其微博内容的关键词获取到的主题分布,将未知社区分布的新用户定位到之前经过社区发现得到的各个社区中。最后,针对本文提出的方法,本文利用爬虫技术爬取Twitter用户微博进行实验。实验结果表明基于主题分布对微博用户进行重叠社区发现的查全率达到75.4%,基于主题传播对微博用户进行重叠社区划分的查全率达到84.72%,效果较好。