论文部分内容阅读
移动互联网技术的飞速发展,社交网络平台日益流行,新浪微博作为我国目前最流行的社交网络平台之一,其信息的时效性与爆发式的传播速度,吸引了大批我国的网民,包含巨大的商业价值。传统广告推荐模式的效果低下且易被人厌烦,随着基于用户兴趣的广告精准投放模式愈发被重视,新浪微博中巨大的用户数量与用户兴趣也愈发具有研究价值,而如何精确的描述与预测用户的兴趣,有着重要的研究意义。当前多数的研究是单一的从用户微博信息或用户的社交关系来进行,并不能很好的描述用户兴趣,而微博信息的时效性也随时可能为用户带来新的兴趣,基于此,本文提出了基于社交关系加权的WSALSA(Weighted Stochastic Approach for Link-Structure Analysis)算法和艾宾浩斯遗忘曲线的兴趣预测模型,为此做了以下方面的工作研究:对微博语料文本的处理,由于微博属于短文本结构,文本集过于稀疏,无法直接将微博文本集作为训练文本进行LDA(Latent Dirichlet Allocation)主题提取。针对上述情况,首先对微博文本进行去噪处理,去掉其中无意义的微博文本及网页链接等;其次对内容中交互的对象的信息进行提取与存储。之后,为了解决文本稀疏导致的主题分布不明显的问题,采用训练外部语料库的方式对原有的微博文本集进行扩充,对比了直接训练微博文本集与中文维基百科语料库的主题-词概率模型后发现,维基百科语料库训练结果中,主题中的词语更能直观的表现该主题所属领域。基于社交关系的用户兴趣模型研究,在采用LDA主题模型对用户微博文本提取主题的基础上,考虑微博用户关系中影响力大的用户的兴趣对该用户兴趣的影响,通过社交关系强度加权的方式将影响力大的用户的主题作为该用户兴趣的扩充。在对用户间关系强度的分析过程中,按关注关系和交互关系对用户间的社交关系进行强关系和弱关系的划分,并给出关系强度的定义以及算法实现。在对用户影响力分析过程中,本文通过对微博社交网络的研究分析,提出一种基于社交关系加权WSALSA算法网络结构中用户节点的影响力进行排序,并通过实验及结果评估表明本文提出的加权WSASLA算法具有较好的影响力排序结果。以划分时间窗口的方式来描述用户兴趣随时间的变化情况,考虑到用户受其他用户兴趣的影响,提出了基于社交关系强度加权的社交关系-主题映射模型,通过对用户已关注的影响力较大的用户在相同时间窗口的主题进行分析,将该窗口下的主题以关系强度加权的形式对用户原有的兴趣主题进行扩充。通过实验及评估,该方法获得的用户主题能更全面的表现用户兴趣。当前对用户兴趣演化模型研究中,主要通过用户兴趣强度变化及内容的变化来分析,因此,本文借用艾宾浩斯遗忘曲线规律及重复学习的过程,以多阶段遗忘曲线的形式映射到连续的用户窗口中,通过分析用户主题在时间片上的概率变化来分析用户兴趣的变化情况。