论文部分内容阅读
随着Web2.0技术的快速发展,社交网络系统中的信息呈指数增长,出现了严重的“信息爆炸”和“信息过载”现象。个性化推荐技术是解决信息过载问题的有效手段,然而社交网络系统中的信息往往比较短小(例如新浪微博限制在140字以内),传统基于长文档的关键词抽取技术无法给予准确的描述,自然无法提供有效的信息推荐。另一方面,由于移动智能设备的普及,用户对移动阅读的需求逐渐提高,如何针对移动阅读应用的特点为用户提供准确的信息推荐服务,是其能否获得成功的关键。
本文主要研究微博消息的关键词抽取以及移动阅读中的个性化推荐技术,论文主要研究内容和创新点如下:
1.提出了基于Hashtag和评论信息的微博关键词抽取算法。Hashtag是用户主动添加的标注词,一般认为具有较强的主题指向性。在本文中,首先将具有相同Hashtag的微博信息合并为一个文档,之后基于是否是Hashtag的共现词以及共现频率计算某个词作为特征词的概率。另外,考虑到一些参与讨论比较多的微博,用户的评论也构成了一个比较充分的相关文档集,可以采用与前面类似的方法,提取微博关键词。实验结果表明,该方法能够较准确和全面地提取微博消息的关键词。
2.提出了一种用于移动阅读应用的个性化推荐算法。用户兴趣模型是推荐算法中的关键问题,直接影响到推荐结果的好坏,考虑到移动阅读应用中对用户模型建立和更新速度要求比较高,本文提出了一种基于文本TF-IDF特征和时间衰减因子的用户兴趣模型,并随着用户的交互行为在线更新。另一方面,文档推荐算法通过对文档排序决定了最终的推荐结果,本文提出了一个基于聚类和随机采样的推荐算法。实验结果表明,本文提出的方法能够实时跟踪用户的兴趣变化,并在移动阅读应用中为用户提供个性化的信息推荐。
3.设计了一款个性化在线推荐实验系统——“翻悦”,并在此系统上测试了上面的推荐算法。