论文部分内容阅读
互联网的快速发展以及移动智能设备的普及,使社交网络成为信息社会不可或缺的社交手段,针对社交网络的研究已成为学术界和互联网企业的研究热点。在现实生活中同一个自然人拥有不同的社交网络的现象很普遍,通过跨网络的用户识别方法有效识别不同社交网络中的同一用户账户,对基于社交网络的分析和应用具有重要意义。近年来,研究者们提出了一些基于用户轨迹相似性的跨社交网络用户识别的新方法,但大多数识别方法没有考虑时间和空间的强关联特性,导致识别准确率不高。因此本文在考虑时间和空间强关联特性的基础上,设计了跨社交网络的用户识别模型,并实现了用户识别的相关算法UIDwST(User Identification based on Spatio-Temporal perception)。该模型首先对获取的原始数据进行预处理,解决了原始数据存在的噪声过多、缺失值及数据分散等问题。预处理包括对获取的字段进行清洗、抽取、对位置实体进行经纬度坐标的转化等。然后进行跨社交网络用户对轨迹相似性计算。完成了根据TFIDF算法思想,为不同的签到记录分配不同的权重的计算,以增强不同签到记录的辨识能力。以核密度估计方法为主结合SIGMOID函数设计了考虑时空强关联特性的用户对相似性计算方法。最后完成了跨社交网络用户识别。根据上述方法计算出的所有用户对的相似性值,按照相似度值从高到低进行排序,排序结果作为用户相似度判定的输入。建立了用户对判定原则对排好序的用户对进行过滤生成“候选用户对集合”。利用SIGMOID函数、ReLU(人工神经网络中常用的激活函数)和阶跃函数在对“候选用户对”进行判定,将相似度高于阈值的用户对判定为同一用户,最终得到跨网络的用户识别结果。本文分别在三个真实数据集上对设计的用户识别方法进行了实验和结果分析,实验结果表明该方法是可行的。随后和三个现有近似方法进行比对实验,实验结果表明,在三个真实数据集上该方法得到的准确率(Precision)分别达到了0.7847,0.8528和0.8594,高于对比实验的0.6984,0.8351和0.8580,在识别准确率上分别提升了8.63%,1.77%和0.14%。