论文部分内容阅读
继Web2.0时代之后,各种社交网络平台(Sina、Twitter等)飞快地流行于世界各地,在微博平台分享个人的看法并获取信息的用户与日俱增,海量的数据也与之产生。在数据量的急剧爆发的社交平台中,微博个性化推荐可以帮助用户获取有用的资源信息。随着微博社交平台的流行,微博用户潜在偏好的挖掘成为当前科研工作者研究的重点。微博平台给用户提供为自身标注个性化标签的功能,每个注册过的用户可以根据个人特性和喜好并以标签的形式标识自己,用户这种为自己打标签的行为使得线上媒体可以准确获取他们的兴趣爱好,推荐可能喜欢的物品或内容给用户。但在微博中存在很多给自己标注标签个数为零或标注的标签数很少的用户,为了解决该问题,本文同时考虑用户社交关系和博文内容,借助主题模型提取微博用户潜在的兴趣,并利用微博中的好友关系及非好友间的交互信任关系,给微博使用者预测符合他们偏好的标签。本文的研究工作如下所示:(1)在微博用户标签推荐研究中(Micro-blog User-Tag Recommendation,以下简称MUTR),借助LDA主题模型提取微博使用者潜在的喜好。微博用户经常会发一些跟自身有关的博文内容,这些博文可以反映出用户潜在的兴趣,本文利用主题模型对用户发表的微博信息进行处理,从博文信息中挖掘并量化用户的兴趣特征。(2)在MUTR研究中,提出了好友间中存在的噪音链接问题。用户在微博平台可以互相关注以便及时的交流并推荐信息给对方,但是这种因关注行为而形成的好友关系中存在一些因名人效应而产生的从众关系,即噪音链接,由于不同的好友关系对目标用户的影响力不同,因此,本文在已有好友关系的基础上,通过KL散度计算用户与其好友的喜好相似度,喜好越相似,对目标用户的影响程度就越大,从而使得噪音链接(从众关系)影响力降低,并最终得到降噪关系。(3)在MUTR研究中,提出了非好友间存在的交互信任关系的问题。评论、转发、提及是微博用户在社交平台上常用的互动形式。用户间这种互动体现出对特定主题的兴趣,但是并不表示用户互动的频率越高,他们间的信任度越高,人们在微博平台中是否活跃是需要考虑的重要因素,本文利用用户的活跃度约束互动的频度,从而定义在微博平台中用户的交互信任关系,能够有效的避免因用户朋友较少或无朋友时产生的冷启动情况。(4)在MUTR研究中,提出了基于降噪关系正则化项的微博用户标签推荐算法 BN3R-MUTR(Micro-blog User-Tag Recommendation Algorithm Based on Noise Reduction Relation Regularization)。对用户标签矩阵进行非负分解,将降噪关系作为正则化项约束低维的用户特征向量,惩罚两个喜好相近用户间的距离,经过降噪处理的关系值越大,惩罚力度越大,对目标用户的影响越大,据此得出目标函数,使用Lagrange multiplier和KKT条件对目标函数优化和约束,得到相似的用户标签矩阵为用户预测标签,使用两个不同的数据集对BN3R-MUTR算法的推荐效果展开验证。(5)在MUTR研究中,提出了基于社交关系正则化项的微博用户标签推荐算法 BSRR-MUTR(Micro-blog User-Tag Recommendation Algorithm Based on Social Relationship Regularization)。在微博社交网络中,好友关系固然重要,但是通过动态的交互行为产生的交互信任关系也不能忽视,它能够有效的避免在朋友较少或无朋友时出现的冷启动情况。通过参数控制降噪的好友关系与交互信任关系在社交关系中所占比重,定义社交关系正则化项约束用户标签矩阵,并进行标签推荐。