一种基于改进k-means算法的用户行为追溯方法的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yulinfeng93
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着动态主机配置协议(DHCP)等机制的广泛应用,许多互联网服务提供商为其客户分配定期更改的动态IP地址,为用户流量的长期追溯带来诸多挑战。DNS访问记录反映了“人”对站点的访问行为,若将其放大到较大时间范围内,其中又蕴含了网络用户的访问意图与访问习惯。因此DNS访问记录在追溯用户行为方面处于有利地位,且它在现实中更易获得,便于我们进行存储以供长期分析。如果收集某个用户大量的DNS访问记录进行行为挖掘,发现这些行为的模式,就可满足用户识别、用户分析等应用需求。因此,我们需要寻找利用DNS流量进行用户行为追溯的可能性。本课题提出一种基于改进的半监督k-means机器学习算法进行用户行为追溯的方法,并设计了一种用户行为追溯系统。该系统可以基于采集的DNS流量数据,利用改进的半监督k-means方法对用户的行为模式进行挖掘分析,在用户IP地址不断变化的场景下完成用户识别,进而支持用户长期的DNS流量采集,从而在有限的数据场景下最大程度实现用户行为的追溯。本课题的主要工作包括两个方面:1)提出了一种利用改进的k-means算法进行用户行为追溯的方法,包括基于域名访问行为的特征向量构建方法,基于等簇划分的改进k-means算法,基于多初始化的最优结果选择算法三个方面。2)基于上述方法,设计并实现了一个基于改进的k-means算法追溯用户行为的系统。系统主要由服务器端、数据存储部分以及Web展示端组成。其中服务器端包括数据采集模块、数据处理模块、改进k-means模型算法模块。可以周期性采集用户的DNS流量,经过过滤处理、算法训练等步骤实现对不同用户各自的流量的划分。实验结果表明,改进的半监督k-means算法可以在少部分用户范围内表现出较高的准确度。
其他文献
当前机器人已进入生产生活中,大量的重复性劳动已被机械所取代。目前基于图像的机器人控制系统已获得广泛的应用,但作为人机交互最为便捷和自然的方式“语音”目前仍应用有限。与工业机器人相比,家庭中的服务机器人对语音的需求格外迫切。本文针对家庭中的服务机器人人机交互问题设计了一套基于语音处理、自然语言处理和任务解析的人机交互系统。相关研究工作如下:针对语音识别的移动机器人人机交互问题,本课题设计了一种从用户
本课题主要以比较研究方法,对朝鲜人与山东人迁入东北地区的原因、迁入过程以及迁入后对东北地区产生的影响等方面进行了比较研究,从中发现了不少特点,其中既有共同点,又有不同点。首先,关于朝鲜人与山东人迁入东北的原因,因遭受严重的自然灾害、苛刻的封建统治阶级的压榨、被丰富的东北地区土地资源吸引等原因而迁入方面是相同的,但朝鲜人因残酷的日本殖民统治而迁入的因素更多,而山东人则因人口急剧膨胀而迁入的因素更多。
在信息和媒体产业快速发展的21世纪,消费者在面对各种信息时往往感到困惑,而品牌往往会影响消费者的选择。因此,各大企业一直是以品牌建设作为提高企业竞争力的重要策略。而随着应用的拓展,在政府一系列政策措施的支持下,品牌也逐步进入到各行各业,包括一些非盈利组织和公共领域。公共档案馆借鉴其他行业和领域的品牌建设经验进行自己的品牌建设,打造良好品牌形象,是公共档案馆得到新发展的突破口。通过对公共档案馆的感知
低共熔溶剂(Deep eutectic solvents,DESs)自2003年Abbott等人提出后便因诸多优点(易合成、价廉、可生物降解、不易挥发、不易燃等)而广受关注,成为新一代“绿色溶剂”。近年
中国共产党历来关心、重视青年。习近平继承这一优良传统,对新时代青年的价值、教育、工作等问题,提出了诸多新观点、新思想和新要求,形成了具有鲜明时代特色和价值的新时代
为了改善图像的分辨率和质量,图像超分辨率重建技术应运而生,这一技术既可以满足人们的视觉需求,也可以便于图像在诸多工程领域的后续应用。近年来,随着机器学习和人工智能等
石油和天然气是现代社会的驱动能源。近年来,随着科学和技术的不断进步,人们的消费结构发生了革命性变化,对油气的需求有了较大增长。但传统油气资源逐步枯竭,页岩气作为一种
从复杂路况中提取出车道线信息是高级辅助驾驶技术的关键任务,研究多场景下结构化车道线的检测方法具有重要意义。本文通过对比分析国内外车道线的研究现状发现,大部分车道线
异构平台是指具有不同架构(系统&软件)的计算平台,它们支持很多种开发语言,各平台对应的开发者背景差异也十分巨大,这就使得在各平台上运行着多种不同类型的任务,比如AI任务,MySql等。传统方式下,各平台的管理人员通过系统提供的Cron对任务进行触发,对于具有多项依赖的任务组来说,需要人工设定执行时间与方式,一旦出错需要整体推倒重试,随着集群规模的扩大、任务量的增加,传统方式的弊端愈发明显。
铁路是近代社会最为先进有效的陆路运输方式,铁路的建设、运营对经济和国防都有至关重要的影响。近代史上,修筑铁路是日本对东北进行殖民经营的重要手段之一。北满地区拥有丰富的自然资源和重要的地缘位置,日本控制中国东北后便加紧在这一区域拓展铁路、修筑新线,构建铁路运输网。1931年到1945年的十四年间,北满地区新建铁路超过三千公里,形成了覆盖北满大部分地区的铁路运输网络,其中大部分线路经多次修缮改造后,至