论文部分内容阅读
社会化媒体(Social Media),是一种给予用户极大参与空间的新型在线媒体。它能极大的改变并丰富人们的上网及生活方式,因此关于社会化媒体数据的分析和挖掘是当今的一大研究热点。社区,特别是潜在的社区,作为社会化媒体中的一种天然组织,尽管也吸引了很多研究者的目光,但基于社区对社会化媒体进行系统分析的工作仍然很少。本文的主要工作即是,社会化媒体中基于社区的数据挖掘研究及其应用。
本文基于大规模真实的社会化媒体数据,对社会化媒体中基于社区的数据挖掘技术进行了探索和研究,涉及其中几个关键问题,包括社会化媒体中的社区发现、社区内的热点预测、社区内的影响力用户发现。论文的主要工作和贡献有:
1.提出了基于用户兴趣及社交拓扑结构的社区发现算法。社会化媒体中的社区不仅依赖于用户间的社交关系,还与他们之间的兴趣密切相关,因此本文通过将兴趣和社交关系融合进行社区发现。本文首先利用社会化媒体中的各种内容和社交关系特征分析用户的兴趣,计算用户之间的兴趣相似度;然后,在融合用户兴趣的加权社交关系网络上进行随机游走,从而得到用户间的最终相似度,该相似度既考虑了用户的兴趣因素,也受到社交拓扑结构的影响;最后,本文采用经典的聚类方法以发现社区。实验结果表明,通过融合用户兴趣,社区发现的效果有所提高。
2.研究了社区内的热点预测问题,并依此进行内容推荐。社区内的热点是指被一个社区内大量用户所转发分享的内容。本文提出了特征加权预测模型以预测社区内的热点。本文首先探讨了一系列影响用户转发行为的特征,包括消息自身特征,消息作者特征,社区特征以及相互关联特征,然后通过信息增益的方法分析了各特征的重要性,最后依各特征的重要性提出了特征加权机制,以使重要的特征能发挥更大的作用。实验结果表明,本文的特征加权模型能有效预测社区内的热点,并且通过预测社区内热点以进行内容推荐,效果优于基于全局和个人热点的内容推荐。
3.探讨了如何发现社区内有影响力用户的问题,并依此进行好友推荐。首先,提出了阅读-转发模型,它通过一系列能表征用户间影响力的潜在因素,如用户发布内容的质量、用户的社会地位、用户间的“同质性”等,计算相邻用户间的直接影响力;其次,提出了多路径非线性阈值模型,通过模拟用户间的影响力在社会化媒体中的传播过程,计算任意两个用户间的影响力,并最终得到有影响力的用户。实验结果表明,在发现社区内影响力用户的任务中,本文提出的算法有最佳的效果,并且利用社区内的影响力用户进行好友推荐,其表现也优于基于全局影响力用户的好友推荐。
4.设计了社会化媒体中基于社区的推荐系统原型。作为应用,论文在总结博士期间所做工作的基础上,设计了一套适用于社会化媒体的基于社区的推荐系统原型,并实现了其中的关键模块:基于社区的推荐引擎。该系统能够发现社会化媒体中潜在的社区,并在此基础上进行内容推荐和好友推荐。