论文部分内容阅读
移动互联网技术的飞速发展以及移动终端设备的广泛普及,人们对空间信息服务的需求日益增大。空间信息服务、无线移动服务和社交网络服务的结合,产生了海量的社交媒体地理数据。社交媒体地理数据作为大数据时代地理信息的重要组成部分,具有自身独特的性质,包含空间、时间、语义等属性信息,数据更新速度快、数据量大,与用户活动息息相关,信息量丰富等,使其相比于传统地理数据,蕴含较大的发展潜力与应用价值。得到用户长期的行为操作数据可以发掘用户的行为模式,认知用户的偏好,真实再现用户在现实世界中的生活轨迹,帮助认知用户的行为模式;从提供基于位置服务的角度来说,对用户活动及出行提供更好的认知,也可以帮助运营商提高服务水平与质量;另一方面可以根据用户的关注度来发现用户关注的城市热点区域,针对不同地点,不同时段的用户出行需求制定基于位置的服务。对政府和社会而言,这些数据是对人类活动的真实釆样。从这些数据中可以分析出很多有意义的信息,为政府的决策提供参考依据。本文基于社交媒体地理数据的特点,从理论研究和实际应用出发,对社交媒体地理数据的获取、存储、处理及应用进行了深入研究和分析,研究内容集中在以下三个方面:1.通过对位置大数相关理论的研究及对社交媒体地理数据概念及特点的研究,设计实现了对海量社交媒体地理数据获取的方法,利用API数据访问接口,采用Java SDK开发包,基于Eclipse开发平台设计实现了社交媒体地理数据的抓取方法。以社交媒体地理数据中的签到数据的获取为例,通过微博API中的位置服务接口和位置地点动态接口获取了上海客源到江苏浙江两省A级以上景区出游的签到数据;最终获取到2013~2015年在江苏省A级以上景区的签到数据达1,360,011条记录,在浙江省A级以上景区的签到数据达527,825条记录。2.其次根据社交媒体地理数据的特点及数据结构,本文采用SQL Server数据库和ArcGIS的地理空间数据库作为数据的存储媒介,研究了SQL Server数据库连接GeoDatabase的方法;在数据的预处理过程中,基于Microsoft Visual Studio2010开发平台,采用C#语言编写了三个签到数据预处理程序,分别为签到数据整合、兴趣点上的签到人数统计和签到时间字段解析,实现海量签到数据的快速处理;最后,通过对POIID的清洗、POI类别筛选、目标数据提取,得到2013~2015年上海客源在江苏省A级以上景区的签到数据提取量为:59073条记录,在浙江省A级以上景区的签到数据提取量为:33176条记录。3.对获取到的社交媒体地理数据进行应用实例挖掘分析,分别从时间、空间上对数据进行挖掘分析。从时间角度出发,通过对获取到的签到数据进行筛选、统计后,分别对2013~2015年上海客源到江苏浙江两省A级以上景区出游的签到数据进行年际变化特征分析,节假日变化特征分析及节假日、周末和工作日的对比变化特征分析。从空间角度出发,利用ArcGIS空间分析方法,通过对2013~2015年上海客源到江苏浙江两省A级以上景区出游的签到数据做核密度分析,探索上海客源感兴趣的旅游热点区域,再通过对节假日出游的空间地理流量、流向挖掘,分析上海客源在黄金周、小长假、双休日的出游模式及出游特点,为人们智慧出行、智慧旅游的开发提供依据。