论文部分内容阅读
移动用户位置数据关联分析与异常检测技术研究在商业推荐、城市计算、社会管理和公共安全等领域具有重要的理论价值、广泛的应用前景和迫切的现实需求。本文以移动用户位置数据为对象,研究了移动用户的身份匹配、社会关系类型推断、群体发现和异常行为检测四种关联分析及异常检测技术。(1)用户身份匹配针对当前方法用户集合固化、数据来源单一、背景信息获取困难等问题,根据用户社会关系和行为模式,提出了一种异源位置数据移动用户身份匹配方法。首先依据位置数据判断用户社会关系,识别用户个人地点,提取时空共现区信息。而后根据社会关系和时空共现区提取活跃用户并将其作为待匹配用户集输入匹配算法。匹配算法计算待匹配用户的社会关系结构和行为相似性,依据用户身份在上述两个方面所表现出来的相似性进行身份匹配。最后根据社会关系结构提取已匹配用户的邻居节点作为新的待匹配用户集合,反复迭代完成用户身份匹配。在三个真实数据集上进行实验,结果表明与同类方法相比该方法具有较好的精确率和召回率。(2)社会关系类型推断针对当前方法推断结果类型受限及准确率较低的问题,以移动用户位置数据为对象,综合利用时空共现区统计数据和语义信息,提出了一种基于时空共现的社会关系类型推断方法。通过用户共现频次、时空共现区位置熵和离散距离三种统计数据计算时空共现强度;依据时空共现区公共地点和用户个人地点识别结果获取其语义信息。结合时空共现强度和语义信息生成时空共现向量,根据向量特征的类别相关性和冗余信息量,按照“最小相关-最大冗余”原则提取时空共现区语义特征,得到语义特征对应的特征向量。根据样本特点和社会关系类型推断需求,采用改进的多分类支持向量机构造分类模型。依据位置数据来源,给出单源位置数据和异源位置数据两种社会关系分类模型。在真实数据集上进行实验验证,结果表明单源位置数据分类模型能够有效推断移动用户的家人、同事、朋友和其他四种社会关系类型,准确率高达89.3%,与同类方法相比精确率和召回率分别提高7.9%和6.6%;结合用户身份匹配信息,异源位置数据分类模型可以在单源位置数据分类模型的基础上取得更好的用户社会关系类型推断准确率。(3)群体发现针对现有方法在移动用户群体发现中存在社会关系和位置属性不能兼顾的问题,提出了一种基于逆标签传播算法的重叠群体发现方法。首先,根据移动用户的位置信息推断其社会关系结构图,提取时空共现区。将时空共现区作为位置属性标签,标注社会关系结构图。其次,在标签结构图上进行逆标签传播,消除节点伴随标签。经过反复迭代,在标签稳定状态每一个节点保留所属群体的主标签。最后,根据用户社会关系和稳定状态下节点主标签完成群体划分与识别。进一步结合用户社会关系类型给出多层次逆标签传播算法。在四个真实数据集上进行实验,结果表明逆标签传播算法较好考虑了用户社会关系和位置属性,较其他方法能够更好的发现移动用户的重叠群体结构;在用户社会关系类型信息的辅助下,多层次逆标签传播算法可以进一步提高群体发现结果的准确率。(4)异常行为检测针对当前轨迹异常检测中轨迹演化和检测结果类型单一的问题,结合用户历史行为模式、群体结构信息和近邻用户行为,提出了一种移动用户异常行为检测方法。该方法将轨迹数据转换为时空共现区,进一步挖掘用户行为模式,提取用户群体结构信息。在此基础上,根据历史行为模式异常、伴随行为模式异常、时空共现区离散异常、时空共现区聚集异常和异常用户群体属性五种特征,采用随机森林方法构建多分类异常行为检测模型,识别移动用户个体异常、群体异常、地点异常和事件异常现象。在真实数据集上的实验表明,所提方法可以有效识别移动用户的轨迹演化行为,检测多种类型的异常现象,与同类方法相比具有较高的召回率和较低的误差率。