论文部分内容阅读
随着信息时代的到来,互联网上的信息呈现爆炸式增长,人们开始面临信息过载问题,找到自己需要的信息开始变得具有挑战性。信息过滤技术应运而生,信息过滤技术旨在为用户过滤掉无用信息,帮助用户精准快速的获取信息。推荐系统是信息过滤技术的一种具体应用,旨在帮助用户从海量信息内容中找到用户感兴趣的信息,并发掘用户可能感兴趣的物品。推荐系统将这些物品形成一个短小的推荐列表呈现给用户,从而提高信息提供商对客户的吸引力以及用户的使用体验。推荐系统已经成为现代互联网内容提供商的不可或缺的模块,比如电商网站包括京东,亚马逊等都在网站首页展示给用户个性化的物品推荐。这些推荐的物品常常是因人而异的,商家会根据用户的浏览记录分析和挖掘用户的兴趣,推荐与用户兴趣相匹配的物品。而用户也会有更大的概率发现自己喜欢的物品,免去了从海量商品中去随机搜寻的过程。本文研究的出发点就是通过分析用户在浏览网站时的点击记录数据,建立用户的兴趣分布,并分析用户兴趣变化过程,进而将该过程融合到推荐算法来,设法提高推荐系统的实时性与准确性。本文基于传统的LDA算法提出了改进的Session-based LDA算法,该算法利用了用户兴趣的间断性,即用户在某一个连续的浏览记录段内会表现比较一致的兴趣,而在不同的时间段内兴趣分布又比较分散。本文在真实数据集上验证了这个假设的合理性,并且基于这个假设,将兴趣的间断性原则融合到LDA算法中,形成了一个带有两个参数的Session-based LDA算法。其中第一个参数0可以用来控制用户在一个时间段内的兴趣是否与用户总体的兴趣分布一致,另一个参数1用来控制用户兴趣随时间发生跳转的概率大小。通过这两个参数的调节,可以更好的对用户的行为进行建模,从而提出更合理的用户兴趣分布函数,实现更加精准的推荐效果。本文在三个真实的数据上验证的改进算法的有效性,相比传统的LDA算法,准确性都得到提高。并认为该算法应该有较好普适性,因为通过调节参数0与1的值,可以使得Session-based LDA可以拟合不同的数据集,即使在最坏的情况下也可调节到接近原始LDA算法的准确性。