论文部分内容阅读
随着Web2.0时代的到来,社会化媒体以前所未有的方式改变了人们的生活方式,尤其是微博的出现,它彻底颠覆了人们获取信息的方式,让人们不仅仅是信息的获取者,同时也可以即时发布信息和传播信息。微博作为社会化媒体典型的代表,它允许用户根据自己的兴趣个性化定制自己的关注列表,每一个微博用户既可以是关注者也可以是被关注者,正是这种关注与被关注的关系使得微博用户之间形成了一张巨大的社会网络,从而使微博也兼具社交属性,人们获取信息,传播信息也正是依托于这张社会网络。本文主要是面向微博社会网络的研究,主要从用户之间的关系,网络中呈现的团体特性等方面进行研究,通过关系计算,团体挖掘来发现微博社会网络中潜在的社会化现象。通过对微博社会网络的研究,本文相信会对社会化搜索、信息推荐、社会化电子商务、微博营销、精准广告投放等方向的研究起到推动促进作用。因此本文主要完成了以下三方面的研究工作:第一,本文主要是以新浪微博为数据源,由于新浪微博是一个开放平台,利用其开放平台的特性,通过调用其开放API接口获取微博数据,并对获取的数据进行解析和分析,然后以xml文件格式进行数据表示和存储。第二,对微博用户之间的社交信息和交互信息进行模型化表示,通过计算微博用户之间的社交信息的相似性,并以交互信息作为标准答案证明了社交信息相似性计算的有效性,其中粉丝信息相似性最能反映用户之间的亲密性。并采用社交信息相似性的计算方法,进行了用户推荐实验,并取得了不错的推荐效果,其中通过粉丝信息相似性的推荐效果最好。第三,在社交信息相似性的基础之上,通过设定相似性阈值,可以生成一个相似性网络,在此相似性网络上采用经典的基于图切割的CNM(Clauset、Newman、Moore)团体挖掘算法进行了团体挖掘实验,然后采用我们开发的社会网络分析可视化系统进行了结果可视化。实验以NLP领域微博用户为例,形成了NLP教师团体、NLP企业团体、NLP学生团体等几个团体。