论文部分内容阅读
[摘 要]随着无线互联网时代的来临用户与服务提供商进行的数据交互越来越频繁,应用功能服务商为用户提供实时、随地的无线互联网数据信息服务,这也是是未来信息服务业的发展趋势。基于空间位置提供服务的手机网络APP越来越多,并成为一种能够快速有效抢占市场份额的应用特征特征。如,OFO,MOBIKE,外卖软件等等。本论文讨论的是类似于“组织发现”的算法,旨在基于把所有用户传回的位置信息进行处理,筛选出可能是“同伴”的用户,并对此挖掘一定的商业价值。
[摘 要]组织发现、算法、敏感地点、敏感人物
中图分類号:TP311.13 文献标识码:A 文章编号:1009-914X(2017)24-0250-01
一、 课题研究现状及意义
目前国内外的研究现状主要是对经纬度信息进行平面X,Y坐标映射[1],转化成平面坐标系利用点的聚类分析算法对经纬度数据进行聚类处理。优点是输入简单,只需要输入所有点的经纬度数据,不需要进行额外的输入即可得到结果。缺点:计算的信息量巨大,每次计算需要迭代入所有的點的数据。结果不准确,结果不是以人为单位而是以位置点为单位造成了计算结果含义模糊输出不确定不准确。例如,一个人P的有些轨迹点聚类到了群体A,另一些轨迹点聚类到了群体B,还有一些轨迹点聚类到了群体C。在这种情况下我们不能直接根据结果得出结论,人物P同时属于A、B、C三个群体,则样的结论是不负责任切不准确的。还是上述这种情况,我们需要具体认为的分析每一次聚类结果检查人物P的轨迹点在聚类A中多一些还是B中多一些还是C中多一些。具体阈值需要人为地每一次进行规定才能判断人物P属于哪个团体,结果无法复用且冗余太多,需要人为调整的地方太多。从根本上来说,这类聚类算法的原理是以每一个孤立的点为基本单位进行聚类处理,没有以人为基本单位。得到的只是点属于哪一个点群体而不是人属于哪一个组织,算法的基本单元一个个轨迹点而非人,这类算法的主要算法是SCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚类算法。本文中的算法是以人为基本单位的人群组织发现算法。以人物的IMEI(国际移动装备辨识码)、IMSI(国际移动用户识别码卡号)、MSISDM(电话号码)三个卡号作为一个人物的唯一识别码。本算法开始需要的输入的部分比较多但是算法的结果部分比较准确。标识敏感地点以及给出敏感人物三个卡号中的一个卡号就可以在所选定的敏感地点中找出所有与给定敏感人物是同伙的人员。完成指定目标区域特定人物团伙发现这一功能。
二、算法原理
在给定一个敏感人物的前提下,想要挖掘出他的所有类似同伙的过程,本文算法是这样实现的。首先第一步输入想要进行观测的敏感地点,在地图上圈起来几个想要关注的敏感地点。设计算法使用solr查询从数据库查询所有在敏感地点区域中的所有人物。制成列表,相同敏感地点中的所有人物存储在一张表中即几个敏感地点就有几张表。接着第二步输入敏感人物的三个卡号(至少输入一个),若输入的敏感人物的三个卡号中有空值,则将拿到敏感人物卡号进行模糊处理,使用正则匹配中的模糊匹配字符串代替卡号中空值的部分,模糊匹配字符串:([\\s\\S]*?)。利用正则匹配对几个敏感地点列表中的所有人物进行匹配。(将三个卡号按照固定顺序合成一个字符串可以大大增加匹配效率)。如果敏感地点人物列表中匹配成功了敏感人物说明敏感人物到过这个敏感地点的范围内,则保留这张敏感地点人物列表。反之,敏感地点人物列表中没有匹配到敏感人物则说明敏感人物没来过,此时这张敏感地点人物列表对接下来的计算没有用途,丢弃掉。对所有敏感地点人物列表全部迭代匹配了一次敏感人物之后,经过筛选我们就得到了敏感人物去过的敏感地点的人物列表。接着第三步,对得到的剩余的敏感地点人物列表进行频繁项集记录。本算法利用HashMap以键值对的方式来保存每个人物的频繁项集。伪代码如下:
While(遍历所有敏感地点任务列表)
{if(键值对表map中没有地点列表中的人物){
将该人物加入到map键值对的key键中,并设置其对应的value值为1}
Else(键值对表map中有地点列表中的人物){
查询键值与该人物对应的value将其自增,value++,替换原来键值对应的value
}
}
这样迭代一次之后敏感地点人物列表中的所有对应的人都有了与之对应的值(value),接下来设置一个阈值,num=size(敏感地点列表的个数)/2+1,所有键值对中value值小于这个值得键值对都将被删除(频繁度不够)。这样得到的所有的键值对的值key都是可能与给定的敏感人物是一个组织的“同伙”。该算法的优点是稳定,不需要人为调整阈值。算法结果准确,配合可视化技术看起来直观,以人物为基本单位挖掘出所有可能的与核心敏感人物有关系的可疑人物聚集成的组织。
可视化方面,采用的是openlayers3,javascript完成的。Openlsyers是一种基于JavaScript的地图操作行为,本项目中负责在地图中给敏感人物及其团伙进行打点,在地图上标注出来,以及人群聚合将人群比较多的情况(画面冗杂),聚合成一个大圈使得画面比较清晰整洁。
参考文献
[1] 龚玺,裴韬,等.时空轨迹聚类方法研究进展[J].地理科学进展,2011,30(5):522-534.
[摘 要]组织发现、算法、敏感地点、敏感人物
中图分類号:TP311.13 文献标识码:A 文章编号:1009-914X(2017)24-0250-01
一、 课题研究现状及意义
目前国内外的研究现状主要是对经纬度信息进行平面X,Y坐标映射[1],转化成平面坐标系利用点的聚类分析算法对经纬度数据进行聚类处理。优点是输入简单,只需要输入所有点的经纬度数据,不需要进行额外的输入即可得到结果。缺点:计算的信息量巨大,每次计算需要迭代入所有的點的数据。结果不准确,结果不是以人为单位而是以位置点为单位造成了计算结果含义模糊输出不确定不准确。例如,一个人P的有些轨迹点聚类到了群体A,另一些轨迹点聚类到了群体B,还有一些轨迹点聚类到了群体C。在这种情况下我们不能直接根据结果得出结论,人物P同时属于A、B、C三个群体,则样的结论是不负责任切不准确的。还是上述这种情况,我们需要具体认为的分析每一次聚类结果检查人物P的轨迹点在聚类A中多一些还是B中多一些还是C中多一些。具体阈值需要人为地每一次进行规定才能判断人物P属于哪个团体,结果无法复用且冗余太多,需要人为调整的地方太多。从根本上来说,这类聚类算法的原理是以每一个孤立的点为基本单位进行聚类处理,没有以人为基本单位。得到的只是点属于哪一个点群体而不是人属于哪一个组织,算法的基本单元一个个轨迹点而非人,这类算法的主要算法是SCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚类算法。本文中的算法是以人为基本单位的人群组织发现算法。以人物的IMEI(国际移动装备辨识码)、IMSI(国际移动用户识别码卡号)、MSISDM(电话号码)三个卡号作为一个人物的唯一识别码。本算法开始需要的输入的部分比较多但是算法的结果部分比较准确。标识敏感地点以及给出敏感人物三个卡号中的一个卡号就可以在所选定的敏感地点中找出所有与给定敏感人物是同伙的人员。完成指定目标区域特定人物团伙发现这一功能。
二、算法原理
在给定一个敏感人物的前提下,想要挖掘出他的所有类似同伙的过程,本文算法是这样实现的。首先第一步输入想要进行观测的敏感地点,在地图上圈起来几个想要关注的敏感地点。设计算法使用solr查询从数据库查询所有在敏感地点区域中的所有人物。制成列表,相同敏感地点中的所有人物存储在一张表中即几个敏感地点就有几张表。接着第二步输入敏感人物的三个卡号(至少输入一个),若输入的敏感人物的三个卡号中有空值,则将拿到敏感人物卡号进行模糊处理,使用正则匹配中的模糊匹配字符串代替卡号中空值的部分,模糊匹配字符串:([\\s\\S]*?)。利用正则匹配对几个敏感地点列表中的所有人物进行匹配。(将三个卡号按照固定顺序合成一个字符串可以大大增加匹配效率)。如果敏感地点人物列表中匹配成功了敏感人物说明敏感人物到过这个敏感地点的范围内,则保留这张敏感地点人物列表。反之,敏感地点人物列表中没有匹配到敏感人物则说明敏感人物没来过,此时这张敏感地点人物列表对接下来的计算没有用途,丢弃掉。对所有敏感地点人物列表全部迭代匹配了一次敏感人物之后,经过筛选我们就得到了敏感人物去过的敏感地点的人物列表。接着第三步,对得到的剩余的敏感地点人物列表进行频繁项集记录。本算法利用HashMap以键值对的方式来保存每个人物的频繁项集。伪代码如下:
While(遍历所有敏感地点任务列表)
{if(键值对表map中没有地点列表中的人物){
将该人物加入到map键值对的key键中,并设置其对应的value值为1}
Else(键值对表map中有地点列表中的人物){
查询键值与该人物对应的value将其自增,value++,替换原来键值对应的value
}
}
这样迭代一次之后敏感地点人物列表中的所有对应的人都有了与之对应的值(value),接下来设置一个阈值,num=size(敏感地点列表的个数)/2+1,所有键值对中value值小于这个值得键值对都将被删除(频繁度不够)。这样得到的所有的键值对的值key都是可能与给定的敏感人物是一个组织的“同伙”。该算法的优点是稳定,不需要人为调整阈值。算法结果准确,配合可视化技术看起来直观,以人物为基本单位挖掘出所有可能的与核心敏感人物有关系的可疑人物聚集成的组织。
可视化方面,采用的是openlayers3,javascript完成的。Openlsyers是一种基于JavaScript的地图操作行为,本项目中负责在地图中给敏感人物及其团伙进行打点,在地图上标注出来,以及人群聚合将人群比较多的情况(画面冗杂),聚合成一个大圈使得画面比较清晰整洁。
参考文献
[1] 龚玺,裴韬,等.时空轨迹聚类方法研究进展[J].地理科学进展,2011,30(5):522-534.