论文部分内容阅读
在信息多样化的今天,网络社交媒体发得到快速发展。结交更多朋友、了解更多有趣的话题是当下人们对社交网络媒体的主要需求。新浪微博作为一种新型的网络媒体形式,日渐成为人们分享日常生活和获取实时新闻的主要平台。在微博数据中有很多可利用的信息,现阶段的微博用户只局限于接收自己关注的信息,而其他有热度的话题和或可能感兴趣的话题内容得不到主动的推送。因此,如何推荐此类信息成为微博研究的一个重要方向。微博数据文本内容较短,语义信息匮乏,具有很高的稀疏性,传统主题模型无法充分提取有用的信息。又因传统的微博推荐并没有将时间等因素和相似度进行融合考虑,所以推荐准确度比较低。针对这些问题,本文主要从以下两个方面对微博推荐进行改进:(1)针对直接利用LDA模型构建微博用户模型时,存在微博文本长度较短、语义信息缺乏影响主题建模效果,本文提出一种基于用户评论的模型UCLDA,该模型将用户的评论和用户历史微博文本进行整合,对微博短文本的特征进行扩展,缓解了微博本文作为短文本特征稀疏的问题,随后对文本特征进行数据建模,得到其主题词分布,并使用加权K-Means的计算方式得到微博话题簇。该模型通过爬虫获得的微博数据作为数据集进行实验测试,按照一定比例选取不同的训练集和测试集,进行了K次不同的实验,通过对基于UCLDA、LDA以及BTM的聚类算法进行对比试验,验证了基于UCLDA和加权K-Means的方法对热点话题发现的准确性和有效性有了提高。(2)针对UCLDA主题模型无法结合用户对于微博话题偏好的时效性等问题,本文提出了一种融合相似度算法。首先确定新用户的微博主题对应微博话题簇中的哪一个,然后根据不同微博内容潜在属性互相交替的可能,通过对用户的行为、微博的内容、微博话题的命名进行相似度计算分析,结合外部环境的影响,赋予三者相同的权重因子,计算其相似度。该模型同样以微博数据集作为实验数据,与传统的基于相似度的推荐算法进行对比实验,实验结果表明,实际值准确度明显低于将三者属性融合之后得到的相似度结果。这种算法既深刻考量了时间热点效应,又把热门热搜话题和冷门话题效应对推荐结果的影响进行了提升。