论文部分内容阅读
随着计算机硬件与软件技术的快速发展,互联网已经进入Web2.0时代,互联网应用由此大量诞生,与此同时产生了巨量的非结构化数据,如何挖掘这些数据的潜在价值已经成为了越来越多学者的研究内容。在一些数据驱动型应用中,“信息过载”的问题经常出现,例如在电子商务领域,用户面对庞大的商品列表,应该如何做出选择,如何获取最有效的信息,而企业又应该将哪些信息展现给用户,展现的信息是否是用户所感兴趣的,这些问题常常给双方带来困扰。为了解决这些挑战,推荐系统应运而生。推荐系统的基本核心是从用户信息,物品信息以及用户与物品的交互信息中挖掘内在关联和潜在特征,从而联系用户和物品,以满足为用户推荐物品等具体工业需求。在传统单域推荐算法中,基于邻域的算法最先被提出来,但其只考虑用户与物品间的交互信息,而这种交互信息在很多场景中是不足的,难以处理日益增长的数据带来的数据稀疏性问题。因此需要挖掘更多相关附加信息并构建更优雅的模型来完善推荐效果,结合物品属性和用户属性的推荐方法被证明是有效的,本文将从其中的社会化标签的维度来研究如何提升推荐效果。在跨领域的推荐系统中,推荐系统的另一个挑战是冷启动问题,其中如何敏捷地捕获用户兴趣是一个正待攻克的难点,本文将从用户冷启动的角度结合迁移学习观点来探究用户在新领域的冷启动问题。本文在阅读跨域推荐相关文献的基础上,总结了在跨域推荐中常见的两个问题:如何对源域和目标域中的标签进行迁移;如何预测源域中的用户对目标域中的物品的评分,并用数学符号做出了问题定义和问题分析。针对标签数据迁移问题,本文使用标签数据作为联系源域和目标域的桥梁,使用改进的标签共现技术得到标签的向量化表示,接着提出了标签嵌入聚类算法(Tag Embedding Coluster,TEC)和目标域标签迁移算法(TagTransfer,TT),生成主题模型,然后再迁移目标域的标签到各自的主题中,最后得到了标签主题概率矩阵(BCP)用于评分计算。针对跨域用户评分问题,本文结合多层感知机提出了主题因子分解机模型(Topic Factorization Machine,TFM),将用户和标签的组合特征作为输入,从而用户获取用户主题偏好矩阵(UCP),最后根据BCP和UCP来预测源域中的用户对目标域中的物品的评分。本文使用带有标签数据和评分数据的Movielens数据集和Amazon数据集,首先将该数据集按照实验要求进行清洗、构造和处理,随后设计实验研究标签迁移聚类算法的有效性,通过相关降维方法,对实验数据进行了可视化分析,实验结果符合预期;对于主题因子分解机模型,本文首先观察在不同参数下的实验结果,分析出对结果影响较大的超参数,然后设计参数敏感度实验,分析和选择获得最优解的参数值,最后本文选择了基本的和最新的相关对比方法,设计了在不同标签重叠度的情况下进行对比实验,实验证明本文提出的模型在特定参数下,优于对比方法,一定程度上提高了推荐效果。