论文部分内容阅读
随着网络技术的发展,网络媒体正日益成为当今社会人们获取资讯的重要方式之一。这其中,微博自诞生之日起,就以其便捷性和实时性越来越受到网民的重视。每时每刻都有大量的微博消息被发布出来,如何处理这些海量数据,成为现代工业界和学术界的研究重点。微博网络中人与人的关系和现实世界中关系类似,会形成一个个类似的社区结构。在一定的时间段内,社区内部人与人之间联系密切,用户之间会有共同的兴趣。通过发现社区的兴趣得到社区关键词,可以得到与关键词相关的微博用户。通过发现用户的兴趣,可以得到与用户兴趣相同的其他用户和其感兴趣的微博内容。本文提出新的算法来发现微博网络中的社区结构,结合微博社区兴趣模型和微博用户兴趣模型,可以查询与关键词相关的微博用户和推荐兴趣相同的其他用户及感兴趣的微博内容。通过计算与其他用户兴趣模型概率分布的相似程度来得到兴趣相同的用户;通过计算微博用户的兴趣模型概率分布与微博的主题模型分布之间的相似程度来得到用户可能感兴趣的微博内容。本文利用Lucene对微博内容进行建索引,在查询扩展的基础之上,可以收到更好的检索效果。本文主要做了以下几方面的工作:1、提出一种新的微博社区发现算法Label-Influence-Algorithm(LIA)。LIA算法考虑到社交网络中人与人之间的关系,即一个人的朋友中大多数属于一个社区,自己也很大概率属于这个社区,同时借鉴社会学的研究成果,在发现微博社区时考虑到微博用户的影响力。微博中用户的粉丝数目并不能客观反映用户的影响力,还需要考虑关注数目、评论数和被提到的数量等,重点需要考虑如何排除“僵尸粉”(即主要是由机器来运营单纯只是为了增加粉丝的数量)。2、微博社区用户兴趣模型建模。由于微博消息限定为140个字,属于典型的短文本内容,所以单纯的对每条微博进行主题发现效果很差,而且也没有多大的实际意义。在一定的时间段内,微博用户的兴趣相对固定,而社区内的用户也具有相对固定的话题,由此可以发现微博用户的兴趣模型,并由此得到与用户兴趣相同的用户和其感兴趣的微博内容。对于每个微博用户,利用其所发表和转发微博的主题模型来表示其兴趣模型;对于每个社区,利用其社区成员所发表和转发微博的主题模型来表示其兴趣模型。3、构建微博信息检索系统。本系统主要有查询功能和推荐功能:在查询功能中,用户输入检索词,在经过查询扩展之后得到扩展词集,会得到与扩展词集相关的微博内容和微博用户;在推荐功能中,用户输入微博昵称,通过计算该昵称的微博用户兴趣模型概率分布与其他分布和社区内微博主题分布的相似程度,来得到与之兴趣相同的用户和可能感兴趣的微博内容。最后,对本文进行系统的总结,同时指出了下一步的研究重点。