论文部分内容阅读
随着移动网络和大数据时代的到来,用户参与的网络活动越来越多,其一切行为逐渐被数字化记录,导致整个网络的数据形态和来源变得越来越丰富。虽然基于单一数据流的用户建模已有成熟的研究方法,但多源异构数据的急剧增长,给用户建模带来了更大的挑战,单一数据流已经很难全面刻画用户的多元化特征,难于进行精准的用户建模。多源异构数据融合研究将会产生更大的价值,多源异构数据的跨域关联研究已成为一个新的研究趋势。目前,大多数用户跨域关联是通过计算相似度来判断两者是否存在关联关系,这将导致海量数据下的关联并不精确,不能很好地解决大规模数据下的关联问题。因此,本文针对该领域存在的上述问题,首先对社交网络中的用户建模方法展开研究,然后建立跨域关联模型,最后研究了大规模数据下的跨域关联挖掘方法。具体工作内容如下:(1)跨域关联建模:本文首先分析了社交网络中多源异构数据的存在形式,从用户属性信息、用户生成内容、用户行为轨迹以及结构关系四个方面挖掘用户的行为模式,构建用户特征向量。在此基础上建立基于一对一匹配的跨域关联模型,该模型先采用无监督的方法获得用户相似度,将其作为连边的权重,然后利用基于贪心的匹配算法来得到一对一匹配结果。实验表明一对一匹配模型的F1值可以达到90%,高于单纯的有监督或无监督方法的结果。(2)大规模数据下的跨域关联挖掘:本文提出了两种模型,一个是基于最小哈希的跨域关联模型,该模型首先对用户标签集合做hash降维映射,然后利用一对一匹配算法进行用户关联;第二个是基于倒排索引的跨域关联模型,该模型先筛选出可能相似的用户对作为候选集合,然后再进行用户关联。实验表明,基于最小哈希的跨域关联模型的F1值可以达到89%,优于基于倒排索引的方法。说明基于最小哈希的方法不仅可以提高时间和空间的效率,而且精度几乎没有损失。上述工作可以较好地解决大规模数据下的跨域关联问题,本文进一步的工作是研究基于标签语义的跨域关联方法,以及将基于最小哈希的跨域关联模型应用于分布式环境中。