论文部分内容阅读
社交媒体应用的迅猛发展改变了人们的生活和人际交往形式,以原创性、时效性、便捷性著称的微博表现出非常强劲的发展势头。微博的出现极大地丰富了网络中的内容,用户根据自身喜好关注微博平台中特定的公共或私人微博账号,来获取大量与用户兴趣相关的内容。微博系统为用户提供了丰富的话题及内容,用户可以根据自身的喜好来选择接收某些方面的内容,因此微博系统除在线社交功能之外的强大的功能是以兴趣为主导的内容接收或发布平台,在此基础之上,为了提高用户体验质量、分析用户行为轨迹、高质量的个性化推荐,用户的兴趣提取和行为动态建模十分必要。本论文的工作主要分为两个部分:第一个部分,通过分析微博消息的文本内容,挖掘用户感兴趣的话题形成用户兴趣,为用户的行为建模做准备;第二个部分,通过研究用户发布的与兴趣相关的微博,在时间轴上对用户的行为进行动态建模,挖掘用户行为规律,并且依据模型预测用户行为并对用户推荐相关内容。在挖掘微博用户兴趣方面,由于用户兴趣具有强烈的个人属性,本文主要采用非监督式学习的方法进行挖掘。首先将微博文本看作短文本,在此基础上实现对微博短文本的分词以及向量化;其次,对词语向量之间的相似度进行研究,利用相似度来表征微博文本之间的距离关系,为下一步工作做准备;再次,分别采用LDA主题生成模型和基于词向量的K-means聚类对用户兴趣进行挖掘;最后基于以上研究过程,生成基于用户微博短文本集的兴趣标签。在基于用户兴趣的用户建模过程中,首先选定与用户兴趣相关的微博短文本,按照时间顺序将用户兴趣排序,继而在时间轴上基于马尔科夫模型对用户的兴趣转移进行动态建模,生成用户兴趣转移概率矩阵,模拟出用户注意力在兴趣之间的转移情况,利用模型对微博用户进行内容推荐与内容预测,并利用内容推荐准确率对动态模型进行评估,实验结果表明本模型可以有效模拟用户行为,内容推荐准确率达到78%。