论文部分内容阅读
随着移动互联网技术的广泛普及,人类活动的范围不再局限于真实世界,出现了虚拟与真实共现的现象。线上和线下行为都存在加密、匿名、移动的可能,易给不法份子提供契机,从事违法犯罪活动。与此同时,身份信息的遮掩或缺损也进一步加大了执法的难度,执法人员无法依据隐瞒或丢失身份信息的行为数据来准确识别实体。当身份信息与行为数据相分离时,如何利用仅有的行为数据获取实体的真实身份,成为一个亟待解决的问题。本文遵循生物基因能够唯一标识一个实体的原理,在网络“基因”图谱概念的基础上,进行了更深一步的研究及具体化。网络“基因”图谱是一种全新的、可预测的、可补全的、可推理的、可计算的多维结构,以一种全新的方式缓解了身份缺失、身份遮掩、身份伪造、跨网站多重身份难以识别等难题,即虚拟身份与真实身份难以映射的问题,且其将为准确识别、有效预防和精准打击违法实体提供重要的理论研究价值和现实实践指导意义。本文所做的主要研究如下:(1)“基因”图谱框架搭建。“基因”图谱构成:网络“基因”图谱由身份“基因”组和行为“基因”组两大类构成。身份“基因”组又可以细分为确定性身份“基因”片段、虚拟身份“基因”片段、生物特征“基因”片段三大类;行为类型较为繁多,获取及分析的难度较大,因此行为“基因”组依据当前采集的数据源共分为手机通信“基因”片段、短信通信“基因”片段、电子邮件“基因”片段、出行“基因”片段、网购“基因”片段、寄递“基因”片段、微博“基因”片段、即时通信“基因”片段、远程操作“基因”片段、网上金融“基因”片段,且后期还会有其他“基因“片段的添加。“基因”片段拼接:依照片段类型和片段时间先后对“基因”片段进行拼接,拼接后的“基因”片段仅通过实体编号建立联系,彼此之间相互独立,这样可以保障在后期填补信息时不会干扰到其他片段,从而保证“基因”图谱结构不会有较大的改变。(2)网络“基因”片段内容的确定。对不同的行为数据,依照行为动力学和统计学的知识,分析其间隔分布、响应分布、位置分布、关系人分布等,以便得到目标人行为的特征参数和统计量特征,构建行为“基因”片段。各行为“基因”片段的结构和构建流程较为相似,因此文中就行为“基因”组中的电子邮件、寄递、即时通信三大片段,进行了详细的分析,并提供了一种联系紧密度的算法,以此确定实体的稳定联系人,与此同时,还给出了行为“基因”片段统一逻辑结构,以便简化后续操作。(3)网络“基因”片段的相似度检验。本文针对行为“基因”片段内部组成复杂的问题,提出了融合总体行为特征和网络关系特征的相似性度量方法,同时预先对部分数值进行了符号化处理,以期减小数值波动性带来的影响,最后分析了几种匹配的情形,并相应地给出了解决方案。