论文部分内容阅读
信息技术与互联网的发展引领人们步入人工智能的时代。在这个时代中,互联网记录了海量的信息。人们每日都在主动或者被动地接收着大量的信息。这便是所谓的“信息过载”。为了解决这一问题,研究人员提出了许多方案。例如,分类目录、搜索引擎和推荐系统。它们都是帮助人们快速寻找有用信息的工具。推荐系统不同于前面两者的是,它可以在用户没有明确需求的情况下帮助用户寻找感兴趣的信息。本文通过研究推荐系统的实证数据,分析用户行为模式,并用于改进推荐算法。此外,研究了推荐系统中所用数据的数据量与时间的选取对推荐算法准确度的影响。主要研究工作如下:(1)本文研究了基于用户兴趣模式的个性化推荐系统。通过研究四个实证推荐系统数据集(Netflix、SMovie Lens、LMovieLens和RYM)中用户的活跃度与对象的流行度之间的关系,发现活跃度高的用户对于冷门对象具有较为强烈的偏好,活跃度低的用户则表现出较为广泛的偏好。本文将这一用户兴趣模式引入到个性化推荐算法中,提出了一个改进算法的一般函数形式。并运用这一函数形式改进七个基于不同相似性函数的推荐算法,最后得到了四个新的推荐算法。本文在上述四个实证数据集上对这四个新的推荐算法进行了测试,发现由于Heat Conduction(HC)具有高多样性与低准确度,该算法在改进过后多样性有所降低,但其准确度得到很大提升。其余改进过后的推荐算法的准确度与多样性都要优于改进之前的算法。此外,本文将其中一个新算法(P-CN)与另外两个优秀的推荐算法,即Hybrid Algorithm Of Heat Conduction And Mass Diffusion(HHM)和Biased Heat Conduction(BHC),进行了比较发现,该新算法在多样性与准确度上表现更为出色。本文在四个实证推荐系统数据集上测试了四个新算法对于不同流行度的对象的推荐效果发现,新算法能够有效地提升低流行度对象的推荐准确度。(2)本文研究了基于时间效应的个性化推荐系统。基于MovieLens和Netflix两个实证推荐系统数据集,研究了用于推荐系统的数据集的数据量与时间信息对于三种推荐算法,即Common Neighbors(CN)、Adamic-Adar算法(AA)和Sorensen算法(SOR),的推荐效果的影响。本文研究发现,用于个性化推荐的数据量的增加并不总是会提高推荐的准确度,并且靠近当前推荐时间的数据对于提高推荐的准确度非常重要。本文对Mass Diffusion(MD)和HHM算法的进一步研究表明,在使用靠近当前推荐时间的数据集时,HHM算法在获得最优推荐效果时的函数形式与MD算法相同。本文将MD算法与上述提及的三种算法(CN、AA和SOR)进行了比较发现,MD算法表现更为出色。这表明,在使用靠近当前推荐时间的数据集时,HHM算法并不需要通过调整优化参数就能够获得良好的推荐效果。这个发现可以大幅减少推荐过程中所用的时间。综上所述,本文通过分析用户的兴趣模式以及推荐中所使用的数据的时间和数据量的选取对推荐效果的影响,为推荐算法的改进提供依据。