论文部分内容阅读
在线社会网络吸引了数十亿用户,不仅扩展了他们的社会活动范围,而且使人类活动能够被大规模记录下来,这为人类行为研究提供了契机。分析人的在线行为不仅对理解传统的社会学理论有参考价值,也对实际应用如改进推荐系统、提高信息传播效果等有重要意义。本文对在线社会网络用户的行为进行分析和预测:首先对三类在线社会网络中的发布者和受众就性别、年龄和国家(地区)三个属性与选择行为之间的关系进行分析,然后进一步分析发布者和内容与性别相关的特征,根据这些特征对受众的性别比例进行预测;接着针对发布者的属性和行为如何影响短网址的点击率进行分析,最后根据信息内容提取发布者的兴趣主题,按兴趣偏好对Twitter用户进行兴趣分组。研究的主要贡献包括以下四个方面:1.验证了同质性理论在在线社会网络中的适应性,并分析了媒介对信息传播的广度和速度等的影响。基于YouTube、Flickr和Twitter三种在线社会网络的大规模数据,我们分析了用户的属性与他们的信息选择行为的关系,发现在线社会网络用户在年龄、性别和位置三个属性上有明显的同质性,即受众倾向于选择具有相似属性的发布者上传的内容;同时三种网络中双重角色现象普遍存,但用户作为不同角色的活跃度不对等。我们还发现三种网络中存在明显的差异:YouTube视频的生命周期长达三年之久,而Twitter微博的生命周期只有几天;在信息传播的全球化程度上,Flickr是Twitter的两倍,而YouTube则介于两者中间。2.学术领域中第一次对社会网络中信息的受众性别比例进行了预测。本文分别在YouTube的视频发布之前和发布之后对受众的性别比例进行预测。在发布之前,我们首先提出并验证了两个假设:受众一致性和主题一致性,前者指同一发布者上传的视频将会有相似男女比例的受众,后者指主题相同的视频将会有相似男女比例的受众。基于这两个假设的一致性特征,综合用户和视频属性相关的特征,用多元线性回归和支持向量回归两个模型对受众的男女比例进行预测。实验结果表明基于这两个假设的特征是受众性别比例的主要指标,预测也取得了较高的准确性。在视频发布后,我们使用视频的早期评论来预测全部受众的性别比例,实验取得了较好的效果。同时还发现早期的评论数量(成本)和预测的准确性(收益)的关系符合边际效用递减规律,当早期评论数量约为250时,预测的成本收益比最高。3.首次分析了影响通过在线社会网络获取网站流量的关键因素。最近Twitter对短网址发布策略的改变,使得获取用户所发布的短网址的准确点击信息成为可能。以准确点击量作为影响力的测量标准,对用户属性、行为和主题等因素对点击率的影响进行分析。结果证明一些广泛接受的提高网站流量的方法基本无效甚至有消极效果,比如用户通过相互关注来增加自己的粉丝数量和微博中使用hashtags。对用户行为的分析显示尽管受众在工作日和周末具有相似接受力,但用户周末发布的短网址数量明显比工作日的少;而主题分析显示,对于同一主题,用户在Twitter和Facebook投入相似的精力,但获取的点击率差别很大,同时主题范围太窄的用户发布的短网址点击数量明显偏低。最后综合以上分析而提取的特征用来对用户影响力水平进行预测,采用Bagging模型时取得了82%的准确率。4.提出用LDA来发现具有相似兴趣的用户的方法,以及快速找到相似用户的搜索算法。针对缺少描述用户兴趣的关键词如标签等信息的Twitter,通过LDA从用户发布的内容中提取用户的兴趣,然后提出用户相似水平的计算方法来查找具有相似兴趣的用户。为克服Twitter中用户量巨大,搜索比较费时费力等问题,我们首先分析相似用户的特征,发现绝大多数相似用户来自种子用户的第2和3跳的位置;同时粉丝关系呈现出明显的同质性,即在种子用户的第j跳粉丝中与种子用户越相似的粉丝拥有相似度越高的粉丝(种子用户的第j+1跳用户)。然后基于以上分析,提出快速探索算法,实验结果表明该算法能够显著地降低计算次数并且获得比较理想的结果。