论文部分内容阅读
互联网上海量、实时更新的新闻,满足了不同用户的新闻阅读需求。据中国互联网络信息中心的最新统计,83%的互联网用户习惯于在互联网上阅读新闻。随着越来越多的用户通过移动设备和无线网络接入互联网,如何帮助互联网用户在海量新闻中寻找到其感兴趣的新闻变得愈发必要和迫切。个性化新闻推荐技术作为解决互联网新闻过载问题的重要的手段,得到工业界和学术界高度重视,许多相关的算法与系统被不断提出和开发,个性化新闻推荐算法已成为数据挖掘与机器学习领域的一个研究热点。个性化新闻推荐算法根据用户浏览行为和新闻的内容,采用各种数据挖掘技术,分析并挖掘用户的兴趣,主动地向用户推荐其感兴趣的新闻。个性化新闻推荐算法不仅能够帮助用户发现其感兴趣的新闻,而且可以提升用户对网站的满意度,增加用户粘性。针对现有个性化新闻推荐算法很少考虑用户浏览行为的时序特性以及忽略了蕴含丰富信息的新闻标签的作用与价值的问题,本文对个性化新闻推荐算法展开了研究,主要创新工作如下:(1)在用户浏览新闻的过程中,用户浏览新闻而产生的行为数据是一种时间序列数据。但是,现有的新闻推荐算法很少考虑用户浏览行为的时序特性,从而造成在预测用户将要阅读的下一则新闻时表现出较差的性能。为了解决上述问题,本文考虑用户行为的时序特性和用户所处的上下文,提出了时序性协同过滤新闻推荐方法。与该方法相匹配,在相似度计算方法上,本文提出了一种名为时间依赖性相似系数的方法,弥补了传统相似度计算方法在计算长期用户和短期用户的相似度方面的不足。(2)尽管新闻的标签向用户展示了与新闻的内容密切相关的核心内容,但现有的个性化新闻推荐算法通常使用关键词向量或者主题分布对新闻的主要内容进行特征化表示,忽略了标签的作用和价值。基于标签的信息量和标签概率关系图中标签的度,本文提出计算标签权重的方法,用于区分不同标签的重要性;基于标签间共同出现的模式,采用条件概率的方法,计算两个标签在不同方向上的相关度;在此基础上,通过标签向量对新闻的内容和用户阅读偏好进行特征化表示,提出了基于标签概率关系图的个性化新闻推荐算法,向用户推荐与其阅读偏好相关的新闻。(3)基于本文提出的个性化新闻推荐算法,本文实现了基于标签的个性化新闻推荐系统,不仅向用户推荐符合其阅读偏好的新闻,同时推荐与其阅读偏好相关的新闻,从而帮助用户发现新的阅读兴趣,增加了推荐结果的多样性。此外,本文采用多维评价指标,通过广泛的实验,对本文提出的个性化新闻推荐算法的性能进行综合评测,验证本文提出的个性化新闻推荐算法的优越性。