论文部分内容阅读
微博用户网络是一个涉及普通用户、名人等多类用户要素以及其间关注、推文、转发、评论等多种行为关系的复杂网络,以往对微博用户网络的研究通常仅对一种关系进行讨论,忽略了微博用户的行为间存在的相关性,而事实上微博用户的行为是存在着关联关系的,分析并发现微博用户多种行为间的关联关系,对揭示微博用户的网络行为规律,理解微博用户行为的复杂机制,具有重要的现实意义。基于此,本文使用KDD CUP2012任务1提供的腾讯微博数据,提取了用户的关注关系,以及推文、转发与评论中相同关键词关系,基于复合网模型,构建了用户关注关系子网与关键词子网;基于该模型的子网加载运算,构建了用户关注与关键词复合网;通过对子网以及复合网若干拓扑性质的分析,发现了一些有趣的现象,为理解微博用户的复杂行为提供了支持。本文的主要工作阐述如下:(1)微博用户关注子网和关键词子网的构建及性质分析。将用户抽象为结点,用户间的关注关系抽象为连边,构建了关注子网;关注子网的度分布近似幂律分布,度大的为名人,也即名人受关注数大;将用户抽象为结点,用户间有≥k(k∈N+)个相同关键词的关系抽象为连边,构建了多个关键词子网;多个关键词子网的度分布也均近似服从幂律分布,但普通用户的度远大于名人的度,说明普通用户参与的话题较多,而名人的话题较专一,这可能与名人专业领域有关。(2)构建了用户关注与关键词复合网,分析了复合网边界结点的性质,发现随着边界结点在关键词子网的度的增大,关注子网的度微弱变大,说明关键词相似度子网和关注子网呈现微弱的正相关性,说明用户拥有的话题越多,被关注的可能性越大。(3)为发现用户类型对边界结点性质的影响,抽取了名人及其间的关注关系、关键词关系数据,构建了名人间关注和关键词复合网,分析了边界结点的性质,发现随着名人关键词相似度子网度逐渐增大,名人关注子网的度有微弱减小的趋势,即名人关键词相似度子网的度与名人关注子网的度呈现负相关关系,这与普通用户的规律恰好相反,说明名人更愿意关注在某一领域比较专注、权威的名人。