论文部分内容阅读
随着智能手机的普及以及全球定位系统的广泛应用,基于位置的社交网络(LBSNs,Location-Based Social Networks)已经成为人们分享兴趣点签到的主要渠道之一。同时,信息技术的飞速发展使人们遭遇了信息过载的困扰,对于LBSN来说,用户发现其感兴趣的地点十分困难。兴趣点推荐算法应运而生,旨在为用户推荐高质量的地点。LBSN中的用户签到数据存在地理聚集现象以及稀疏性问题,如何根据数据特点设计高效的推荐模型,是LBSN中的关键问题。已有工作分别从社交关系、时间因素、地理影响因素与内容因素四个方面展开研究,相关结果表明,社交关系与时间因素有一定的局限性,地理影响因素与内容因素能够提高算法的推荐性能。然而,目前对于地理影响因素与内容因素的研究都是独立进行的,单因素模型的推荐性能还不够理想,达不到令人满意的效果。仅考虑地理影响因素,算法会受到数据稀疏的影响;而仅考虑内容信息,算法会产生因地理位置限制用户不可能访问的地点。内容因素中的图片相对于文本来说,蕴含着更多的信息,能够同时反映用户的偏好与地点的特点。如何结合地理影响因素与图片视觉内容进一步提高推荐算法性能是LBSN推荐领域中亟待解决的问题。本文以LBSN中的兴趣点推荐为研究场景,针对已有研究的不足,考虑地理影响因素在模拟地理聚集现象中的重要作用,以及利用图片视觉内容信息缓解签到数据稀疏的问题。联合两方面因素,提出基于地理与视觉内容的兴趣点推荐模型,并给出模型学习算法。本文的具体研究工作包括:首先,本文从真实的数据集出发,为了满足本文的研究需求,设计数据爬取框架与爬取逻辑,对数据集缺失的图片信息进行补充爬取。在此基础上,设计合理的策略进行数据清洗以形成可靠的数据集,并在数据集上进行统计特征分析以验证数据集的有效性。其次,提出基于地理与视觉内容的兴趣点推荐模型与参数学习算法。在地理影响因素方面,本文提出了基于聚类算法的区域模型用以合理划分地理位置。在区域划分模型的基础上,本文提出了基于地点与区域共现矩阵的地理隐因子模型用以模拟用户签到行为中的地理聚集现象。在视觉内容因素方面,本文提出了基于用户与地点视觉内容特征的相似度计算方法。而在模型的融合方面,本文提出了基于用户和地点视觉距离的负例权值填充方法,为负例赋予合理权值,缓解数据稀疏性。最后,给出模型的学习算法。最后,基于真实的数据集,对本文提出的模型与算法的合理性与有效性进行验证,并与相关算法进行对比分析。通过对本文的实验结果的分析可以得出:本文提出的基于地理与视觉内容的兴趣点推荐模型能够有效的产生地点推荐,该模型在精确率以及召回率指标上较对比算法提升了约7%。地理影响因素与视觉内容因素的结合对模型性能的提升发挥了重要的作用,从而证明了本文提出模型的有效性。