基于分布式聚类分析的上网时长估算方法研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:lym50691064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,网络已经十分普及。网络在给人们的生活带来便利的同时,也使得许多人上网成瘾,严重影响身心健康和正常生活。网瘾已经成为一个严重的社会问题,其重要特征是上网时长,所以客观估算用户的上网时长对网瘾预防和监督具有重要意义。普遍计算上网时长的方法是依靠计费系统中用户上线和下线时间差作为用户上网时长,这种计算方式十分粗糙,在现状条件下与用户实际上网时长差别巨大。本文提出了分布式聚类分析上网日志计算用户上网时长模型,将上网日志中记录的用户访问请求时间按照需要粒度聚类,形成时间段,用户上网时间由这些更小的时间段组成,精确了划分粒度;同时依据该时间段日志中访问请求的详细信息判断用户访问内容,从而计算该时段内用户各类上网行为时长,如即时通讯、网页浏览、多媒体(视频、音乐)、游戏和其他其他行为类型。对于大数据量网络日志,目前聚类算法在单机处理消耗时间过长,可应用性差,因此本文在处理海量网络日志过程中采用Spark平台对DBSCAN聚类算法实现了分布式计算,并针对校园网日志中聚类的离散数据进行了优化处理。通过用户访问次数的单频段和全频段时长计算结果抽样、用户上网时长分段人数的总体分布、用户分类行为上网时长分析等实验的验证,本文提出的时长计算模型对校园网日志数据具有很好的可信度和实用性,分布式计算也明显提高了模型计算效率,很好的解决了计算上网时长准确度问题。此模型在针对互联网运营商的场景下同样适用。
其他文献
集成学习和半监督学习是机器学习领域中两个重要的研究方向。半监督学习主要研究的是如何利用无标签样本提高分类器的学习效果,集成学习是属于监督学习领域内的方法,它研究的
共价有机框架(Covalent Organic Framework,COF)因其多孔性、孔隙可调性、高比表面积、高稳定性等特点,正受到越来越多的关注,在气体吸附、能量存储、催化、光电应用等领域表
高等学校资产资源短缺是我国现阶段高等教育发展面临的重要挑战。对于学校而言,怎么在项目之间进行有效的资源配置,使有限的资源发挥最大的作用是一个亟待解决的问题。高校资
无线地下传感器网络是以无线电波传播进行信息交换作为通信方式的传感器网络,它的大部分传感器节点位于地下土壤中,以土壤作为传播媒介。作为无线传感器网络的新领域,无线地
区域经济的交流与合作已发展成为一类较为常见的经济活动,区域之间的物流、资金流、信息流、商流等持续流动,使物流活动频率越来越高。在区域之间的相互竞争中,区域物流成为
近年来,建模仿真技术由于模拟真实世界的能力受到了越来越多的关注。随着现实系统的复杂度和规模的提高,仿真系统需要更高的计算能力。并行离散事件仿真(Parallel Discrete E
近年来为了配合经济高速发展的步伐,我国越来越重视多式联运在国内的发展,国务院印发的《物流业发展中长期规划(2014-2020年)》中多次提到有关多式联运的相关内容;自2013年起,习近平总书记也提出了“一带一路”倡议,更进一步提升了多式联运在国内物流行业发展中的地位;与此同时,国家还在《关于进一步鼓励开展多式联运工作的通知》等文件中提出全新要求:2020年多式联运货运量必须超过30亿吨,运量规模占
随着互联网的飞速发展,网络上蕴含的多语言信息也呈指数级增长。单语种所获得的检索结果有时难以满足用户信息检索的需求。查询翻译作为跨语信息检索的基础技术,具有重要的研
两轮轮式机器人是通过两个主动轮驱动机器人运动和工作的。它具有一系列的优秀特性:自重轻、承载大、行走速度快、工作效率高等。因为有这些突出的优点,两轮轮式机器人被广泛
在机器学习中,给高维数据集建立一个鲁棒训练模型是非常重要的。其中最大的问题是如何进行数据降维。数据降维分为两种形式:特征选择和特征提取。特征选择是在原有的特征集中