论文部分内容阅读
随着社交网络和电子商务等互联网技术的发展,人们逐渐从信息匮乏的时代步入“信息超载”的时代。海量信息在给用户带来极大便利的同时,也使用户迷失在信息的海洋中,很难找到自己感兴趣的信息。个性化推荐是解决该问题最有效的工具,它通过主动挖掘用户的兴趣偏好,为用户推送个性化的信息。当前,主流的个性化推荐方法包括:基于协同过滤的方法和基于内容的方法。协同过滤的方法通过计算用户兴趣偏好的相似性,从而为目标用户过滤和筛选感兴趣的物品,它主要是基于用户的行为信息进行推荐,而没有真正利用物品的内容信息和用户的标签信息,同时也存在着数据稀疏和冷启动等问题;基于内容的推荐本质上则是一种信息过滤技术,仅仅通过学习用户历史选择的物品信息,缺乏对用户反馈信息的挖掘,这也往往会造成推荐结果过度特殊化。针对上述推荐方法存在的问题,本文提出了利用半监督学习的方法实现基于用户行为信息与物品内容信息的个性化推荐。其主要工作如下:①针对协同过滤推荐方法存在计算相似度方式单一等问题,提出了基于距离度量与高斯混合模型的半监督聚类的推荐方法。传统的协同过滤方法时间复杂度和用户数的增长近似于平方关系,当用户数很大时,计算非常耗时。本文提出利用聚类分析的方法替代用户兴趣的相似度计算,且综合考虑了用户行为偏好和物品内容信息。具体在聚类分析中,算法不仅考虑了数据的几何特征,也兼顾了数据的正态分布信息。②针对个性化推荐中用户兴趣标签偏少的问题,提出了基于主动学习和协同训练的半监督推荐方法。传统的基于分类模型的推荐方法,当有标签数据偏少时,对挖掘用户潜在兴趣偏好非常不利,本文利用主动学习的策略抽取数据集中具有最大信息量的样本,通过咨询(Query)方式或领域专家标注的方式获得相应的标签,增加了训练模型的样本空间,以改进个性化推荐的质量。③针对主动学习的方法加重了用户的负担或增加了人力成本的问题,提出了基于高斯对称分布的自增量学习的半监督推荐方法。该方法充分利用了大量的无标签的数据,并结合一定的有标签数据进行建模。具体在算法中,通过挑选具有高置信度且高斯对称分布的数据进行自增量学习,以改进个性化推荐的质量。④针对在构建特征向量过程中,用户行为特征与物品内容特征的权重不易权衡的问题,提出了基于图模型的半监督推荐方法。算法通过SELF等方法计算权衡因子,且根据用户的行为信息构造基于最近邻图的权重矩阵。算法利用Sigmoid映射函数来度量两个用户的兴趣相似度,并在算法的损失函数中包括用户行为相似性约束和物品内容相似性约束,且两部分约束的权重由一个平衡因子权衡。