论文部分内容阅读
目前,基于时空数据的用户关系强度预测成为了众多学者研究的热点。前人研究工作主要集中在上下文感知预测或者时空共现预测,并且没有考虑时间上下文信息。本文提出转化的思想从多视角巧妙地将时空上下文和时空共现进行融合,并进一步提升预测精度。本文所做的工作分为三个方面:第一,基于不同的时空视角,提出多视角时空上下文共现的预测方法;第二,提出了基于视角融合的预测方法;第三,给出用户关系强度预测的应用解决方案。本文使用SNAP开源数据集Brightkite和Gowalla作为实验,在这个数据集上再进一步切分成训练集、验证集和测试集。本文主要贡献包括以下三点:(1)本文的提出的多视角上下文共现方法巧妙地将时空数据中用户间的关系转化为自然语言处理领域(Natural Language Processing)中同义单词的关系,从而巧妙实现时空上下文和时空共现的融合,并且本文方法还考虑时间上下文信息。该方法首先从多视角生成时空上下文序列。然后利用NLP领域中的工具分别基于多视角提取用户上下文共现特征,该特征表征用户的签到时间的共现、空间的共现、时间上下文和空间的上下文信息。最后利用机器学习技术基于多视角分别进行关系强度预测。实验表明,本文多视角方法中最好的Day-Location视角比EBM算法在Brightkite数据集在相同的Precision下Recall要最高提高10%,在Gowalla数据集上最高提高8%。(2)根据特征级的特点,本文提出时空上下文共现特征融合的方法(Feature Fusion)。FF方法基于其中两个视角特征所表征信息的互补性,将这两组特征进行融合,再结合机器学习技术进行关系强度的训练与预测。同时,本文也给出了基于多视角决策融合的方法(Decision Fusion)。实验表明,FF方法相比本文提出的最好的Day-Location视角在Brightkite数据集上AUC指标提升3.6%,在Gowalla数据集上提升4.3%。FF方法相比DF方法在Brightkite数据集上AUC提升1.4%,在Gowalla数据集上提升1.6%。并且FF方法比目前最好的方法SCI在Brightkite数据集上AUC提升6.1%,在Gowalla数据集上提升2.4%。(3)本文提出一种社交网络关系强度预测的应用框架。该框架包括以下几个模块:数据的存储与管理模块包含数据结构化、数据的存储和数据可视化这三个子模块;数据建模模块主要将两种融合方法FF和DF方法模块化;模型评估模块进行预测方法性能的全方位评估,同时给出LIFT曲线、ROC曲线和PR曲线,并输出关系强度最强的用户对。