论文部分内容阅读
随着互联网技术的发展和智能移动数据端的普及,越来越多的社交应用和位置服务开始出现,随之而来的海量位置数据也就悄然而生。这样的位置数据包含了用户群体的时空活动特征,因此如何有效的利用和分析这些海量数据,从中提取和分析人群的各种时空特征也就成为了一项重要的研究课题。现在,我国的城镇化脚步越来越快,规模也进一步扩大,但是也产生了一系列“城市病”,诸如城市用地量缺乏,城市交通负荷量激增,城市空气污染严重等等问题,这些都使得城市郊区化、城市居民职住分离的现象更加普遍,大城市中的就业地和居住地的布局不一造成的职住不平衡问题也在进一步的加剧。通过感知和分析城市人群活动的时空动态变化,对于城市的规划和管理的完善以及进行资源利用,协调人地关系等决策提供重要的数据依据。本文的研究思路在于通过采集研究区域内用户产生的新浪位置微博数据,并对获取的微博数据中的空间位置信息进行分析和挖掘,从不同的统计分析指标中得到研究区域内位置微博用户的时空分布特征,并结合区域内的几种用地类型,进一步的分析挖掘人群活动特征与用地类型之间的关系。本文的主要研究成果如下:(1)本研究选择新浪微博数据和百度地图数据作为研究数据并探讨了目前使用广泛的社交网络大数据的抓取方法。在此基础上,通过将研究区域划分为1km*1km的网格来改进抓取数据过程中的技术限制问题,经过数据的查重、查错后,得到了2014年3月—8月的新浪位置微博用户数据57万余条,百度地图4类POI点数据共计2000余条。由于新浪位置微博数据量很大,因此利用PostgreSQL数据库对新浪微博数据进行存储与管理,根据后期的研究思路,将新浪微博数据按照由总到分的时间尺度创建数据表,共建成数据库表格47张。使用Excel表格对百度地图数据进行存储与管理。(2)按由总到分的时间尺度将新浪位置微博数据统计入格网中,并通过最值、差值、空间自相关、平均中心、方向分布、核密度六种统计分析方法对格网中位置微博数量差异进行分析。最值方法得出了不同时间粒度下研究区域的格网中位置微博数量的最大值和最小值。差值方法得出了不同时间粒度下相同格网中位置微博数量的差异。空间自相关分析中可以看到研究区域内的位置微博数量有很强的空间自相关性,并分析了四种局部空间自相关集聚状态。方向分布(标准差椭圆)的计算,可以从宏观的角度看到研究区域内不同时间粒度下位置微博数据,也就是位置微博用户的的分布区域和集散程度以及分布方向。平均中心(分布重心)的计算,可以看到位置微博用户的分布重心,以及不同时间内分布重心的移动方向。核密度计算可以得到位置微博用户在研究区域内的分布强度。以上几种统计方法的计算结果最后都结合用地类型对于产生的差异从时间和空间角度进行了原因的详述,得出研究区域内不同时间尺度下人群活动的动态变化特征。(3)根据统计分析中得出的人群活动的动态变化特征,为了进一步研究人地关系,通过选择2014年6月的新浪微博数据,并结合位置微博数据所在的POI类型点,比较得出不同类型POI点对人群的吸引强度以及相同类型POI点中不同级别的兴趣点对人群的吸引强度,从而更进一步的分析格网的人群活动信息。综上所述,本研究在大数据的时代背景下,通过抓取海量的新浪位置微博数据和百度地图POI数据,利用新浪微博API接口、百度地图API接口、火车头采集器、ArcGIS、Geoda等技术手段,结合多种统计分析方法,动态模拟和分析研究区域中位置微博用户的时空分布特征,得出了城市人群的动态变化与用地类型之间的关系,不仅揭示了城市人群活动的时空动态变化特征,也为城市规划和城市管理进行资源利用,协调人地关系等决策提供重要依据。