论文部分内容阅读
近年来,随着Web2.0技术的迅速发展,各类社交服务网站如雨后春笋般涌现出来,人们正在迅速进入在线社交的时代,对社交网络的研究也获得了广泛的关注。在线社交网络可以看成是传统社会关系在互联网上的一种映射和延伸。在线社交网络具有廉价、便捷、地域无关等特点,能够为用户带来了新的用户体验,因此成为了一种广泛使用的人际交互方式。与此同时,伴随着“大数据时代”的来临,数据挖掘已经越来越受到人们的青睐和关注。通过对社交网络的挖掘分析,可以发现各类社交网络的结构异同,优化网络结构,提高网络效率,改善用户体验。对用户行为的分析可以发现用户在网络中的地位,掌握用户的习惯,研究用户的兴趣传播,发掘最具影响力用户群,为企业实现精确的市场营销推广提供有力保证。首先,本文选取新浪微博为研究的真实数据来源,采用API调用方式获取大量研究所需的用户信息,主要包括用户关注关系、注册时间、微博内容等。然后通过对数据的筛选和解析获取社交网络的平均度数、聚类系数等一系列基本信息,验证了社交网络的“小世界”特征。其次,针对新浪微博的用户影响力进行深入研究。具体而言,借鉴谷歌PageRank算法,在PageRank只考虑链接关系的基础上,结合用户参与在线社交的真实情况,将用户微博数、粉丝数等引入到影响力的迭代过程中实现非均匀的分配方式,提出了用于计算社交网络用户影响力排名的SNIRank(Social Network Influence Rank)算法,并将算法用于真实数据集,发现算法在用户覆盖人次等方面要显著优于PageRank算法。最后,考虑到社交网络不断变化,用户影响力也会随着时间的推移而改变,对上述算法进行改进,将用户活跃度引入算法之中,提出了基于时间的TSNIRank(Time-based SocialNetwork Influence Rank)算法,结果表明改进算法能有效降低当前不活跃的老用户的排名,更加符合瞬息万变的社会网络特性以及商业推广的应用需求。