论文部分内容阅读
微博作为社交网络的新型代表以其快速、新颖和便捷的特点吸引了大量用户,随着微博的大规模发展越来越多的用户选择使用微博阅读即时的新闻、发表对事物的看法、分享有趣的事情。进而促使微博服务越来越趋向于信息的分享和传播平台,微博信息随之出现爆炸式增长。信息过载问题是社交网络中最严重的危险,随着微博信息过载的问题困扰着越来越多的用户,微博也面临着越来越多用户流失的危险,因此如何从大量的微博信息中快速有效的找出用户感兴趣的内容是解决信息过载问题的关键。首先要为用户提供个性化的微博信息流推荐服务,就要准确把握用户的爱好和兴趣,如何通过用户的博文分析而准确把握用户的兴趣是目前的研究热点,而微博信息的短文本格式以及微博的社交网络特性给微博个性化信息流推荐带来了巨大的挑战,现有的微博信息流推荐正是由于目前主体模型研究的局限性和微博数据本身带来的挑战而无法达到较高的准确率。本文在现有微博信息流推荐研究的基础之上,针对为微博用户推荐符合其兴趣和喜好的微博信息的问题,对基于TF-IDF(Term Frequency–inverseDocument Frequency)模型的微博信息流相似度计算方法进行改进,结合LDA(LatentDirichlet Allocation)主题模型的相似度评分,最终达到较高的推荐准确率。论文主要研究内容如下:(1)论文基于TF-IDF模型,综合考虑微博短文本数据特征,将单个词语权重和多个词语权重相结合用于计算微博信息流的相似性进而评估用户的兴趣度,结合协同过滤的思想进一步分析用户的冷启动的问题和个性化特点,有效降低无关微博信息的排名,优化用户微博信息排序。(2)引入概率主题模型LDA来对微博内容进行建模,模型将每个微博集合视为一些隐含的主题特定比例的混合,而一个主题则视为经常同时出现的词语的分布,进而在计算微博信息流相似性时将微博内容映射到主题维度以提高推荐准确率。(3)将基于TF-IDF模型的改进型方法和基于LDA的模型的方法集成用于微博个性化信息流推荐,实验基于新浪微博数据集与现有的余弦相似性和标签向量的微博推荐方法进行了对比实验,并利用查准率、成功率和平均精度来评估算法效果,结果证明该算法的有效性。论文下一步研究方向将着重考虑微博数据的多特征关联性,由于微博本质上是一种社会关系网络,即使单单在内容上,微博信息也有很多特点,因此微博信息流集合了多个影响特征,如何将这些特征融入并建模仍是一个开放待解决的问题。在未来的研究中将考虑用户或者微博的多个特征以进一步提高微博推荐的精确度。