论文部分内容阅读
随着互联网的普及以及网络技术的迅猛发展,互联网上的信息数量逐渐呈现信息过载的趋势。此外,随着电子商务的快速发展,电子商务交易规模不断扩大,电子商务网站的商品数量和商品种类均增长迅速。网络技术的快速发展为用户带来便利的同时也带来了面对海量信息无从选择的烦恼。依靠用户个人的力量对信息进行收集、整理、分析进而决策的难度非常大,推荐系统应运而生,其本质是一种信息过滤技术的应用。如何有效地分析信息和用户的特征、分析收集到的历史数据并产生有效的决策,是当今推荐系统面临的主要问题,这也给计算机科学研究与工程实践提出了许多具有挑战性的课题。本文针对Web-based推荐系统中的一些关键问题开展研究,主要研究内容包括:提高Web-based推荐算法推荐准确性的方法和技术;现有推荐算法评价体系研究;会话推荐多样性评价指标研究;利用用户上下文信息改善会话推荐多样性的研究。本文主要研究工作如下:(1)在提高预测准确性方面,提出了一种提高预测精度的基于动态k近邻的SlopeOne协同过滤推荐算法。SlopeOne算法利用线性回归模型解决数据稀疏性问题,基于用户相似性的k近邻方法可以优化参与预测的用户评分数据的质量。算法首先根据用户之间的相似性动态地为每个用户选择不同数目的近邻用户,然后利用近邻用户的评分数据生成项目之间的平均偏差,最后利用线性回归模型进行预测。在MovieLens数据集上的实验结果表明,改进的算法在预测精度北原SlopeOne算法有所提高,目能适应数据稀疏度更大的推荐系统。与其他协司过滤算法相比,预测精度也具有明显优势;(2)在Web-based推荐系统的评价体系方面,研究发现随着推荐多样性日益成为推荐系统的重要度量指标之一,目前现有的各种推荐多样性评价指标难以体现用户在整个会话期内推荐项目的多样性,现有的推荐算法均以单次推荐的结果进行评估,未考虑Web-based推荐系统应用中,用户的行为是以会话(Session)为单位的。本文提出了一种会话推荐多样性评价指标,该指标评价推荐多样性时将用户一个会话期内推荐的所有无重复项目占推荐位总数的比例作为评价结果,该指标能够更好地评价用户在会话期内浏览项目的多样性,也更有利于发掘长尾商品,提高推荐转化率;(3)研究了现有的各种提高推荐多样性的算法,发现这些算法通常以牺牲推荐准确性为代价来提高推荐的多样性,且均无法评价推荐系统中用户整个会话期内推荐的多样性。本文分析了现有的推荐系统会话推荐多样性普遍偏低的主要原因是会话推荐树中存在过多的重复结点,提出了一种可以减少冗余推荐的离线offline-UICF会话推荐算法,以会话期为单位进行整体推荐。通过Movielens数据集测试表明,offline-UICF算法既提高了会话推荐多样性,又提高了推荐的准确性;(4)为了利用用户上下文信息改善推荐质量,将用户在会话期内的浏览路径作为推荐上下文,用以改善用户的会话推荐多样性。提出了一种在线online-UICF推荐算法,为每个活跃用户建立会话推荐列表,能够有效避免推荐树中出现推荐环路或弱推荐环路。通过Movielens数据集测试表明,利用online-UICF算法进行在线推荐能大幅度提高会话推荐多样性,同时也提高了推荐准确性;在Web-based推荐系统推荐准确性和会话推荐多样性研究工作的基础上,设计并实现了一种Web-based会话推荐系统SessionRecommender,该系统融合了本文所提出的提高预测精度的基于动态k近邻的SlopeOne算法、提高会话推荐多样性的offline-UICF和online-UICF算法,实现了一个兼具高预测精度和高预测覆盖率的Web-based会话推荐系统。该系统可封装现有的其他推荐引擎,结合本文提出的会话推荐模块,可达到同时提高会话推荐多样性和推荐准确性的效果。SessionRecommender为Web-based应用提供了一种新的推荐系统工具。总之,本文从Web-based推荐系统面临的一些关键问题出发,针对Web-based推荐系统中预测准确性、推荐评估指标体系、会话推荐多样性等关键技术展开研究,提出了提高推荐准确性、提高会话推荐多样性的相关算法,理论分析和大量的实验结果证明了这些方法的有效性和高效性。我们希望基于这些方法和技术进一步开发和完善Web-based推荐系统。