论文部分内容阅读
人群活动是大量个体移动的集合,是人类活动的重要组成部分,也是人在真实世界中生活的直接体现。随着新兴的信息技术和通信技术的广泛应用,传统的地理意义上的真实世界已经成为一个融合了电子空间、物理空间以及社会空间的全新区域,也即智慧城市。借助于定位技术的进步,在智慧城市中,无论是在室内环境还是室外环境,个体移动数据都比以往更容易获取。这使得采集含有大量人群活动信息的移动感知数据成为可能。移动感知数据提供了城市中活动个体(人或交通工具)移动性的重要信息。移动感知数据虽看上去很简单,但却可以传递人和城市的诸多信息,比如交通状况和社会事件等。对移动感知数据分析和挖掘可以揭示关于人群活动和城市运行的很多内在信息和知识,从而发现人群活动的规律,进而描述真实世界的运行特征,并且在很多领域如交通、商业、城市规划、公共卫生、公共安全等得到实际应用。事实上,以移动感知数据为中心的研究方法和技术理念已经在交通拥堵预测、大气污染防治等领域中得到应用并取得显著成效。本文基于真实的移动感知数据,以理论研究为基础,着重从人群活动的物理规律、人群活动的社群结构以及人群活动的语义特征等三个方面对人群活动开展相关分析和研究: (1)人群活动的物理规律: 人群活动的物理规律是指人群活动的物理属性的统计规律。在城市这个物理空间内,个体的位置变化可以类比为粒子群中单个粒子的运动。虽然微观上单个个体的移动一般难以预测,但是宏观上整个人群的活动却往往具有显著的统计特征。研究人群活动的物理规律是认识人群活动本质和构建移动感知类应用的理论基础。 在人群活动的物理规律方面,我们的主要工作在于探索了个体移动的距离、方向和访问点等核心物理属性的统计特征,发现了以往研究者未报告的在特定交通工具下个体移动距离的统计特征,并提出了一个基于熵的模型来解释该特征。基于杭州和上海两个城市的出租车轨迹数据集提取个体移动信息,并发现了以出租车为载体的个体移动的统计特征和一般个体移动特征有显著的不同,主要表现在以出租车为载体的个体移动距离并不服从一般个体移动所服从的幂律分布而是接近于对数正态分布。进而发现以出租车为载体的个体移动方向和一般个体移动方向也有显著不同,主要表现在以出租车为载体的个体移动方向呈现出各向同性而非一般个体移动方向的各向异性。还发现以出租车为载体的个体移动在访问点上表现出一定的规律性。另一方面,提出了一个基于熵的人群移动交通方式选择模型,并从模型中推导出两个规律:个体移动平均距离和平均对数距离成线性相关,该线性关系的参数(斜率和截距)也成线性相关。分析了美国全国的航空票务数据集和杭州和上海两个城市的出租车轨迹数据集,其统计结果和我们的模型的推论符合得很好。 (2)人群活动的社群结构: 人群活动的社群结构是指人群活动在中观(Mesoscopic)层面的结构特点。人群活动中广泛存在着各种显式或隐式的社群,如家庭、企业和朋友圈等等。社群作为一种层次化和模块化的结构,对于理解社会网络的内在机理和社会成员之间的交互模式具有特别重要的意义。 在人群活动的社群结构方面,我们的主要工作在于对由人群活动所形成的社会网络的生成过程进行建模,进而基于此模型从海量移动感知数据中实时地在线地发现人群活动的社群结构。首先提出了一个社会网络的生成模型,该模型从边的角度分析社会网络的生成。通过将经典的巴罗巴斯模型从单点场景扩充到多点场景,我们的模型可以完整地描述一个单纯增长的社会网络。接着在该生成模型的基础上提出了两个实时的在线的社群发现算法,这些算法都以增量的方式进行社群结构发现。其中基于期望模数的算法通过优化期望模数而非瞬时模数的办法来避免落入局部最优困境,还给出该算法的社群发现精度的理论下界。最后在通用的社会网络数据集上比较我们的算法和通用的算法。实验结果显示我们的算法和通用的Louvain算法相比,可以显著地缩短运行时间,同时保持相同水平的社群发现精度。我们的算法特别适合应用在像移动感知数据这样规模庞大且实时更新的数据,是研究人群活动的有力工具。 (3)人群活动的语义特征: 人群活动的语义特征是指人群活动所包含的社会空间的知识。社会性是人群活动区别于动物迁徙等物理空间运动的主要属性,挖掘人群活动的语义特征有助于更深入地理解人群活动和建设智慧城市。其挖掘结果可广泛应用在城市规划、交通组织等研究领域。 在人群活动的语义特征方面,我们的主要工作在于提出了一个人群OD流语义的挖掘方法,并借助迁移学习技术将其推广到多城市的情况。首先给出了人群OD流的定义,分析了从出租车轨迹数据中提取到的人群OD流的时空变化模式,并定义了三种人群OD流的特征来描述这些时空变化模式。接着提出了一个基于人群OD流的特征的人群OD流语义的挖掘方法,该方法通过分析人群OD流的时空变化模式来发现人群OD流的社会功能。最后借助迁移学习技术将该方法推广到多城市的情况。迁移学习技术可以有效地克服不同城市OD流的时空变化模式的不同所带来的挖掘结果劣化。实验表明我们的方法在不同的城市都能取得较好的挖掘结果。