论文部分内容阅读
近年来,Web2.0技术得到了迅速的发展,社交网络也逐渐繁荣,如微信、Facebook、Twitter等应用已经在全球流行。同时随着智能手机的发展,支持GPS功能并且能够运行提供位置服务APP的手机开始普及,在这种情况下,基于位置的社交网络(location-based social networks,LBSN)也随之蓬勃发展起来。利用兴趣点(point-of-interest,POI)推荐系统,一方面用户可以发现感兴趣的商家与地点,得到丰富多彩的体验,另一方面,商家可以进行广告推送与商品营销,提高营业额与利润。目前推荐算法已经在传统的电商平台和社交网络平台上得到了广泛的使用,对于位置社交网络来说,推荐系统也是十分重要的。兴趣点推荐系统中蕴含着丰富的多源异构数据,如好友关系数据、地理位置数据以及用户对兴趣点的评论文本、评分等,使用这些数据可以有效提升兴趣点推荐算法的准确率。但是LBSN中的数据信息往往会存在数据稀疏,甚至部分信息缺失的情况,比如某些用户并没有添加好友,因此数据稀疏性与鲁棒性问题是兴趣点推荐算法中必须要解决的问题;此外,由于LBSN中的数据信息具有异构、多维度的特点,因此如何在推荐算法模型中融合多源异构信息也是值得研究的。本文针对兴趣点推荐算法需要解决的数据稀疏性、推荐实时性、数据多源异构性以及算法模型鲁棒性等问题,通过对用户访问兴趣点行为进行建模,预测用户兴趣偏好,从而为用户进行兴趣点推荐。具体来说,本文的研究工作与成果主要体现在以下:(1)针对兴趣点推荐算法面对的数据稀疏性问题,给出了一种基于相容类的预填补算法PACC。该算法通过计算相容类,用相容关系代替粗糙集理论中的不可分辨关系,缓解了原始用户-兴趣点评分矩阵的稀疏性问题。同时分析了算法的时间复杂度,并且在Yelp数据集上与其他预填补算法进行了对比实验。(2)针对推荐实时性问题以及传统社团发现算法应用于兴趣点推荐的缺陷,给出了一种基于社团聚类的兴趣偏好建模算法CDCF。CDCF算法融合了用户的兴趣偏好信息以及社交好友关系,同时通过社团聚类方法达到了提前建立模型以及缩小近邻搜索空间的目的,提高了推荐算法的准确率以及实时性。(3)兴趣点推荐系统中蕴含着丰富的多源异构数据,通过挖掘这些数据可以有效地提高兴趣点推荐算法的性能。本文通过为CDCF社团聚类算法添加距离因素,进而融合好友关系数据、地理位置数据以及用户-兴趣点评分矩阵建立了SoGeoSco(Social Geographical and Score)模型来进行兴趣点推荐。SoGeoSco模型中用户对兴趣点的访问概率由用户与兴趣点间的距离、用户对兴趣点的个人兴趣和社交兴趣这三个因素决定。具体来说,模型通过朴素贝叶斯分类器来对地理位置数据进行建模得到用户与兴趣点间的距离,利用CDPC社团聚类算法来分别对好友关系数据以及签到评分数据建模得到用户对兴趣点的个人兴趣和社交兴趣,最后使用一个具有鲁棒性的规则将多源数据融合起来得到SoGeoSco模型。基于公开数据集进行了对比实验,结果分析证明,与其他主流的兴趣点推荐算法进行相比,SoGeoSco模型能够提高准确率和召回率,并且在部分信息缺失的情况下仍具有良好的推荐性能,表现出了一定的鲁棒性,获得了更好的推荐效果。