论文部分内容阅读
随着经济社会的高速发展和大数据时代的到来,社会信息化、治安动态化、犯罪智能化、维权政治化、反恐常态化等特征日渐突出,传统的公安警务模式很难适应新形式新任务的要求。面对大数据时代复杂多变的国内外社会环境和挑战,我们需牢固树立大数据思维,创新大数据技术,深化大数据应用。加快治安机制转型升级是公安机关的重大任务和责任。为此,公安局根据市局的统一部署,加快推进公安大数据实战应用建设专项项目,着力打造大数据时代下的公安现代警务机制。此研究起源于本文所在公司上海理想承接公安项目需求所致,公安部提议建立流窜犯罪分子路径预测模型,由于犯罪等数据协调进度较拖沓,因此首先使用电信普通用户为研究对象,对其用户时空轨迹数据提出可行的一般算法框架,再视情况用于具体情境中,体现由演绎到归纳的思想。针对这种情况,本文以运营商基站捕获的手机信令数据,结合外部数据如用户信息、气象数据、中国节假日和商业标签信息等作为数据分析基础,增加百度地图和高德地图API找到每个基站对应的经纬度,整合多源异构数据源以便更好地反映移动用户的时空轨迹全貌,提炼信息较强的特征域,对后期的数据建模工作打下良好的基础。本文在此课题的创新工作在于有以下三种:(一)定位算法优化各种通信场景包括2G,3G和4G,为了覆盖这些场景而进行基站定位,创造性地将这些定位数据OIDD,PCMD和LTE进行融合。并利用基于时延的三角定位算法TDOA,多个基站同时接收信号,根据信号到达时间,计算距各个基站的距离,使误差不超过50米。(二)改善训练模型由于上海电信用户基站位置数据很庞大,如何有效进行模型训练是首要考虑的问题。本文将地理空间网格化,同时增加松驰变量解决边界数据稀疏性问题,模型和超参数选择均可在网格中运行,通过该子集本文可以在较短时间内知道模型的性能。在特征构建过程中加入计数特征,排序特征,特征组合,并在时间离散化的基础上从3个周期捕捉时间特征,有效减少模型误差。(三)模型融合每个单一模型将预测每位用户概率较高十个地标。本文使用默认字典类来组合不同模型的概率,并将前三个较高概率的地标作为预测输出。本文首先在验证集整合,看看模型组合是否具有更好的性能。然后,使用这种组合在整个数据集上运行一个融合,同时测试融合的条件即低相关度是否满足使用,最后将这种融合进行贝叶斯估计加权以便得到更高的模型精度。最终实验结果表明,融合模型比单一模型有更高的精度,单一模型的MAP3分数大约在0.51上下,而融合模型贝叶斯优化模型将达到0.82左右。经多次实验,不断地完善特征工程、组合特征训练模型,超参数调优使这个结果趋于稳定,模型融合的关键在于模型差异性,差异性主要体现在不同模型、相同模型不同参数和训练数据不同。而且每次模型融合之前要参考各个模型的相关性,可以用Cosine余弦相似或者Person系数评价,也可以利用MIC最大信息数来检验,这样才能有效避免过拟合。当然在特征工作和调参方面其实还有很大的改进空间。从目前结果来看,本模型显示了较高的可行性和有效性,将有助于公安机关勘察治安形势、发现治安重心、科学部署警力、评估工作绩效,从而达到辅助决策的最终目标。