论文部分内容阅读
随着大数据时代的到来,互联网技术的日趋成熟,尤其是大数据、物联网和云计算技术在各个领域的普及、应用和发展,人类信息的获取不仅仅局限于实体空间。互联网正在构造一个全新的社会形态,人们每天在网上浏览信息、购物、娱乐、办公等活动已成为生活不可或缺的一部分,互联网空间已然成为平行于现实空间的虚拟空间,研究互联网空间中人类在线行为具有丰富的科研意义和应用价值。本文基于中国互联网络信息中心提供的在线行为数据,在数据科学的视角下,研究了人类在线点击流指纹识别算法,并基于提出的在线点击流指纹算法对用户异质种群类别进行分类,进一步,提出了一种基于在线点击流指纹进行异常用户检测的方法。主要研究内容包括以下三个方面:(1)在线点击流指纹识别算法研究。基于用户在线行为数据对网络空间中人类点击行为展开量化研究,应用机器学习算法并通过大量实验发现,虚拟空间确实存在能够识别用户个体身份的点击流指纹。本文对在线点击流指纹进行建模分析,提出了一种基于在线点击流数据构造的在线用户个体身份的识别算法,根据用户在线点击流数据中的在线时间信息、点击软件信息和点击内容信息构造行为特征标签,基于行为特征标签并结合机器学习算法对用户个体身份进行识别,平均识别准确率能够达到90%以上。(2)基于在线点击流指纹的异质种群识别研究。基于本文提出的在线点击流指纹识别算法,对在线用户进行异质种群类别的识别研究,量化分析了网络空间中异质种群的个体行为特征。研究表明,网络空间中同一种群下的独立个体具有相似的行为特征;基于在线点击流指纹识别算法可鉴别其异质种群类别,大量实验表明,在用户社会阶层、年龄、地域、教育背景、性别和户籍6个人口统计信息维度下,识别准确率能够达到89.83%。(3)基于在线点击流指纹的异常用户检测。提出了一种基于在线点击流指纹算法进行在线异常用户检测的方法。研究表明,应用该方法,根据较少点击流历史数据及较少点击流实况数据.,能够取得很好的异常用户检测效果,准确率能够达到99%以上,且随着所需检测用户的数量不断增大,其准确性保持稳定。