论文部分内容阅读
随着Web2.0应用的快速发展,越来越多由用户生成的内容成为了互联网上的一个重要信息来源,出现了许多社会媒体网络站点,如Flickr、Facebook和YouTube等网站。这些网站中存在大量由用户上传的具有地理标签信息的照片数据。通常这些照片数据体现了不同用户的出行轨迹,但出行轨迹数量庞大,且所表达的信息有限。通过分析获取这些地理标签信息,发现社会关系和空间地理关系两者复杂地缠绕在一起,如何从庞大的社会网络数据中抽取、表达这些地理信息,如何采用行之有效的方法来对社会网络中的由用户生成的地理信息内容进行分析和挖掘,这是两个难点问题。本论文的主要工作是从社会网络上的媒体信息中,挖掘出用户轨迹数据,并从多个用户轨迹中提取出用户感兴趣的地理位置,然后挖掘出用户的序列路径轨迹模式,并使用一种排序机制对所获取的路径轨迹模式进行排序,从而获取到相关的出行路径轨迹模式。具体研究内容包括:首先,根据从Flickr网站上获取的照片数据的特点,建立社会网络和地理信息联合描述模型;以联合描述模型为依据,按照不同用户上传的时间顺序提取出照片的经纬度信息,采用二次聚类方法对地理信息进行处理,获取到空间位置相近的有代表的地理位置数据集和相应的照片图片集。其次,针对获取的地理位置数据集,提出路径轨迹模式挖掘方法(Social PathTrajectory Pattern Mining,SPTPM)。该挖掘方法包括两个步骤:(1)基于PreFixSpan算法的序列路径轨迹模式挖掘,获取不同用户的序列路径轨迹模式。对挖掘的结果分析发现,大多数的序列轨迹模式都包含了重要的地理位置,但显示的信息有限,而且挖掘出的路径轨迹数量庞大,许多序列轨迹模式中包含有相同的子模式。(2)提出路径轨迹模式排序算法(Social Path Trajectory Pattern Ranking),把用户、地理位置和路径轨迹三者之间的相互影响,加入到路径轨迹模式的排序中,挖掘出相关的路径轨迹模式的排序。最后,为了验证本文所使用方法的有效性和正确性,进行了实验并对实验结果进行分析。结果表明本研究所提出的路径轨迹模式排序方法(SPTPM)获取到结果达到用户需求的预期结果。本文的研究成果对如何借助地理信息技术,对不同地域的用户的出行路径轨迹进行挖掘,从地理角度来探知社会网络中人与人之间的关系,对理解用户行为和生活轨迹具有一定的理论意义和应用价值。