论文部分内容阅读
随着web 2.0时代的发展,网络信息流服务已经逐步取代了传统媒体成为人们获取信息的主要途径。这类新兴的互联网信息平台可以根据用户的订阅个性化地传递相关信息流,同时也允许用户之间的各类交互,并以此促进信息的产生与传递。但是,也正是由于其操作简单、交互性强、传播迅速的特点,导致现有信息流系统中普遍存在信息爆炸的现象并造成了用户的阅读负担。因此,对各类信息流系统而言,如何构造一个有效的个性化推荐模型并帮助用户过滤与发现其感兴趣的信息,此时就显得尤为重要。针对上述信息流系统的特点,本文在研究了传统推荐算法原理与应用场景的前提下,提出了一种基于矩阵分解与用户特征词向量提取的推荐模型。其主要思想是,通过文中所提出的两种用户话题特征词向量提取方法,根据用户自身历史数据或是用户关注者历史数据提取其话题特征词向量。并以此作为模型的输入数据,用于取代传统推荐模型中的用户物品评分矩阵。之后,采用类似于MF模型的方法,拆分输入的用户特征词偏好矩阵,并训练得到所有用户与特征词的隐因子向量。最后,再详细描述了利用隐因子向量配合待推荐信息词频向量生成推荐信息的具体方法。并使用随机梯度下降的最优化方法给出了模型的求解过程。此外,针对用户社交特性,本文还引入关系网络中信任传播的思想,并依此提出了一种模型的改进方式。同时,还根据信息流系统的特点,重新给出了准确率、召回率等经典评价指标在模型验证过程中的计算方式。最终,本文在真实数据集上进行了相关实验并对结果给出了分析。首先,详细阐述了实验选取新浪微博作为数据源的理由,并给出了数据集的多项基本信息与统计信息。同时,本文按照实验步骤验证分析了两种阈值对推荐列表长度、模型评价指标的影响。对比了使用两种不同的用户特征向量构造方法时模型的各项指标,并与随机推荐模型进行了对比。实验结果显示,基于用户自身信息的特征词构造方法能使模型具有更好的效果。同时,本文所提出的推荐模型在两种不同的用户特征词向量构造方法下效果均优于随机推荐模型。