论文部分内容阅读
社会媒体已经成为人们在互联网中信息传播的重要平台,用户在社会媒体中关注各种信息源并与好友进行互动。这些行为导致了社会媒体中形成了庞大的用户社交网络,同时,用户线下大量的真实社会关系也存在于这种在线社交网络中。在以往的社会科学中,有限的调研形式和稀缺的数据给人与人社会关系的研究造成了很大的困难。社会媒体易于获取的数据使人与人之间社交强关系和社交圈的研究变成可能,这种线上熟人社交圈中的用户具有非常高的同质性,同一社交圈中的用户会很大程度的影响彼此在社交网络中的行为。因此,用户在线社交圈的研究是社会媒体中用户分析相关研究的重要基础。每个用户都在社会媒体中拥有大量的好友,用户和这些好友之间都社交关系强度各不相同,并且很难加以区分。同时,每个用户在社会媒体中大多拥有不同的社交圈,这些社交圈互相独立,代表用户不同的社会关系,例如高中同学、大学同学等。用户社交圈是用户社会强关系的一种典型的表现形式,识别并分析这些社交圈可以反映用户不同的社会维度,然而,社交圈具有很强的主观性和私密性,每个用户只能了解自己社交圈的好友构成和社交圈的意义,因此研究人员很难在社会媒体中直接获取一个用户的社交圈好友和社交圈意义等相关数据。为了解决以上问题,本文从以下方面开展了对用户在线社交圈识别和分析的相关研究。1、基于用户关注关系的在线社交圈识别。每个社交圈都是用户的社会强关系,因此每个社交圈内部的成员之间都彼此连接紧密。根据这个原理,本文提出了一种基于在线凝聚聚类的用户社交圈识别算法,并在用户相似度计算中引入了用户之间的社交属性,可以准确的识别用户在社会媒体中的多个不同的社交圈。为了解决主观性的社交圈数据难以获取的问题,本文建立了激励用户标注自己的社交圈成员的众包平台,该方法有效的获取了可供用户社交圈相关研究的真实数据。2、基于用户多维特征的在线社交圈识别。社交圈内的成员不仅在网络结构上连接紧密,而且在个人资料、兴趣爱好等方面具有很强的同质性。现有的社交圈识别方法利用网络结构特征和个人资料特征都分别取得了很好的识别效果,然而这些方法很难把用户在不同维度的特征结合起来。本文提出了基于矩阵分解的潜在因子联合模型,模型可以通过学习用户不同的维度特征得到特征融合后的用户向量,实验证明,与利用用户单一维度的特征模型相比,该模型通过融合多种用户特征有效的提高了用户社交圈识别的准确率。3、基于多元线性回归的用户在线社交圈标签挖掘。作为用户的社交强关系,每个社交圈都有各自不同的社会意义。每个社交圈成员在社会媒体中都有自己的标签,同一社交圈内成员的一些共同标签可以代表这个社交圈的意义,然而社会媒体中用户标签的稀少甚至缺失造成了用户标签数据的缺失,进一步给社交圈的标签挖掘带来困难。本文提出了一种基于多元线性回归的社交圈标签识别方法,同时融合和用户标签本身的特征和社交圈内的网络结构特征,为每个标签在社交圈内计算一个权重,权重大的标签更可能作为社交圈的代表性标签。与相关方法相比,该方法解决了标签数据的稀疏问题,提升了社交圈标签的识别效果。4、基于用户在线社交圈的用户个人资料补全。用户个人资料是用户在社会媒体中的重要特征,大量的用户个人资料缺失使用户资料补全成为近年来的热点研究方向。已有的用户资料补全方法大多基于用户文本,文本特性的变化和噪声给这类方法带来很大干扰。用户社交圈是用户社交强关系的体现,不同的社交圈代表了用户不同的社会维度。基于这个原理,本文提出了基于非负矩阵分解模型的用户个人资料补全方法,方法通过用户的不同社交圈补全用户不同社会维度的个人资料,保证了用户个人资料的多样性,相比已有方法提高了用户个人资料补全的性能。综上所述,本文开展了用户在线社交圈识别与分析的一些相关研究工作。相关的技术适用于主流社会媒体的用户社交强关系和社交圈的分析。在研究中取得了一些初步的结论和成果,希望能对社会媒体中用户分析的相关工作有所裨益。