论文部分内容阅读
随着计算社会学这一新兴研究领域的出现,利用社会媒体中的海量用户行为数据分析个人和群体的行为模式,不仅为解决一些传统方法不能解决的社会学问题提供了新的契机,也对实际应用如改进社会媒体的功能设计、监测公共事件、分析舆情演化等有重要意义。在线社会网络为用户提供了一个拓展各种社交活动的平台,使用户可以分享信息,与全球各地的陌生人交流,进行推荐等等。随着越来越多来自不同国家的用户开始使用社交网络,开发新的功能和语言平台,将社交网络应用向全球扩展,为不同国家的用户提供有针对性的服务对社交网络平台的发展至关重要。而在线社会网络收集的全球大量用户交互数据和行为数据是揭示人类社会变迁的关键,甚至可以用于预测社会和个体的发展方向。近年来,随着大数据的影响不断深远,社会计算这一新兴研究领域取得了不少研究成果。但是到目前为止,对于人们在在线信息系统中的社会交往和协作过程表现出的文化差异性的研究较少。事实上,用户的行为不仅仅与用户自己的兴趣、个性有关,还与所处国家和地区的文化背景高度相关。本文根据微博用户的行为特征,对微博的用户行为进行建模并从不同角度分析和比较了不同国家的微博用户行为的差异性,试图从文化的角度来解读用户行为。具体来讲,本文的主要工作和贡献如下:1.用户行为建模及分析:基于中文新浪微博和Twitter两大微博平台的大规模数据集,结合了用户属性、用户行为和用户的连接关系等显式信息以及用户特质与所属社区等隐式信息,提出了一种联合概率模型对微博的用户行为进行建模,基于该模型首次对Twitter中不同国家的用户群体形成的网络特征进行了分析和比较。基于联合概率用户行为模型,在样本数据集下选取了Twitter中活跃用户数量最多的15个国家,对这些国家的社区分布等网络特征进行了分析,发现一些国家的用户行为表现出的网络特征与其他国家明显不同。例如,社交网络规模较小、用户参与对话更多的一些国家比其他国家表现出更高的互惠性,并且微博社交网络更多的表现出层次结构关系,其他国家的用户则更多的把微博作为新闻传播平台。2.文化差异性对信息传播的影响:论文第二章的分析指出,微博中不同国家的用户组成的网络的结构特征也不相同。基于此,我们从传播概率和网络互惠性的角度出发,提出了基于网络结构的信息传播动力模型,在Twitter不同国家的极大连通子网中分析了网络结构特征和国家文化背景对信息传播范围的影响,发现当某个国家的权利距离这一文化维度指数较低时,信息在该网络中的传播范围较大,对于文化差异性较大的国家,即使他们的网络结构特征相似,其信息传播的广度也不相同。3.微博行为的演化分析及比较:在微博中,用户发布微博的行为和受众随着时间的推移而发生改变。根据用户在信息传播过程中的作用和Twitter消息格式的常见符号规约,提出了基于微博特征的用户聚类方法TCUCM (Tweets Characteristics-Based User Clustering Method),将用户聚类为内源型用户、对话型用户、普通用户、消息传播型用户和链接发布者这5种类型。基于TCUCM方法对微博行为进行时间轴上的纵向比较,研究用户行为的演化规律。实验结果表明:受到不同国家的文化因素的影响,国家层面的用户群体的行为演化趋势和程度有所区别。4.用户的活跃度预测:用户活跃度是评价社会化平台的一项重要指标。分析表明用户的活跃度与众多因素相关,部分线下因素,例如用户的实际生活状况、离线时间、日程安排等也会对在线活跃度产生影响,而这些行为数据无法直接从微博数据中获取,因而仅仅依靠微博数据很难准确预测用户的活跃度。文中根据微博社交媒体的特性,提出了活跃度因子的概念,将用户微博行为的文化差异性特征、动态性、社会关系的影响等因素统一到活跃度因子中。基于活跃度因子构建了用户活跃度预测模型UAPM (User Activeness Prediction Model),在UAPM模型的支撑下设计了用户活跃度预测算法,并利用该算法在Twitter样本数据集下对微博中不同国家的用户活跃度进行了预测和分析,实验结果表明不同国家用户活跃度的可预测性具有较大的区别。