基于Spark的校园网用户行为分析与研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:lycan95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化建设的新时代,高校的校园网是学生和教师使用率最高的网络,校园网使用率的急剧升高,随之产生了海量的校园网用户日志数据。如今大数据时代,利用大数据技术对海量的校园网络数据进行研究分析,高效准确地挖掘出校园网用户的上网行为规律,在优化网络管理和优化学生管理上具有重要的意义。标准K-means算法是网络用户行为分析中最常用方法之一,存在k值不确定、对初始中心点敏感和不适合大数据聚类的缺点,本文针对这些不足,提出了对K-means算法的改进,利用Spark分布式计算框架实现以K-means++与优化轮廓系数有相结合的改进算法SOSK-means++(Spark based Optimized Silhouette K-means++),并应用于某高校校园网用户行为分析。实验结果分析和实际应用中,表明该改进算法在一定程度上解决了标准K-means算法k值和初始中心对聚类准确性和效率的影响,提高了聚类的准确性;基于Spark平台也有效解决了标准Kmeans算法因数据量大而运行时间过长的问题,提高了算法的并行计算性能。本文在某高校校园网的基础上,以校园网计费系统的网络行为日志为研究对象,基于Spark的分布式平台的对校园网用户行为分析进行分析及可视化展示,对实现对标准K-means算法的优化改进,并应用于校园网用户行为分析中。本文主要研究工作如下:(1)经过对标准K-means聚类算法局限性的研究,针对标准K-means算法的缺点:对k值不确定、对初始中心敏感和对海量数据聚类运算时间过长,提出改进算法SOSK-means++(Spark based Optimized Silhouette K-means++),运用Kmeans++算法与轮廓系数优化相结合,主要从两个方面对标准K-means算法进行优化改进,使用快速距离计算和标准化欧氏距离公式进行距离计算,并在Spark平台并行化实现该改进算法。通过实验数据对该算法的准确性和加速比进行验证。(2)基于上述研究内容和成果,构建了基于Spark可扩展的校园网用户行为分析系统,对高校校园网用户数据采集并进行预处理,使用统计分析和改进算法SOSK-means++对校园网用户数据进行聚类分析,根据校园网日志数据中的登陆时间、注销时间、使用时长和使用流量4个属性特征对校园网用户行为进行分析,把分析结果写入MySQL数据库。最后使用Spring MVC框架开发网页应用,对MySQL数据库中的数据进行可视化呈现并进行详细分析。并通过对比实验,验证了SOSK-means++算法在校园网用户行为分析中的聚类结果是准确、稳定和有效的。
其他文献
钢-混凝土组合梁在建筑工程领域中得到了广泛的应用,并在实际使用过程中逐渐衍生出了预制装配式钢-混凝土组合梁、可拆卸钢-混凝土组合梁、可拆卸预制装配式钢-混凝土组合梁等多种新型钢-混凝土组合梁。近年来,钢-混凝土组合梁的正弯矩区段受力特点及理论分析已经得到了比较充分的研究,但是对负弯矩区段的力学性能研究尚不充分,针对此现象,本文通过试验和模拟研究了负弯矩作用下装配式组合梁的力学性能。本文设计了1根采
现阶段中国发展的动力引擎开始“换挡”,经济发展模式由“要素驱动模式”进入了“创新驱动模式”的新阶段。以科技创新为动力,大力促进科技型企业的蓬勃发展,完成产业结构的优化升级,完成经济可持续增长的任务目标,已成为当下我国经济发展的重大战略任务。科技型企业是国家科技创新能力的重要载体,是一国国际竞争能力的核心所在。但当下我国科技型企业的发展面临严重的资金约束,由于科技型企业本身具有高风险,轻资产、收益延
伴随着科学技术的飞速发展和人力成本的增加,使用机器人代替人工劳动的应用变得愈加广泛。当前大多数机械臂只是机械的完成点到点的操作,只能在环境固定单一和任务固定重复的情况下有效工作。一旦工作环境、目标状态和抓取任务发生了变化,就需要重新配置,缺少灵活性。因此,对于机械臂来说,正确识别和有效抓取位姿未知的目标物体是一项非常具有挑战性的问题。得益于计算机算力的大幅度提高,深度学习技术取得了高速发展。为提高
教育评价是教育发展的风向标,其关注焦点由教师和学校转向学生意味着教育日益聚焦本质,走向教育的中心;由学生发展结果的评价转向增值性评价更是教育理念的巨大变革,是关注每一位学生促进教育公平的巨大进步。为此,厘清以每位学生多方面进步幅度为评价基础的发展关注点,以激发每位学生潜能促进本我多元发展为目标和以评价模型建构为实践媒介的增值性学生评价核心问题,是深入理解增值性学生评价在评价内容、评价过程、评价结果
本文以黑龙江省通河林区黄鼬{Mustela sibirica manchurica)冬季为研究对象,观察不同部位毛被分层结构,并使用红外热像测温技术和动物体被热物性测试技术,分别定性和定量地测量待测样本热物性参数。同时,应用FLIR Quick Report1.2软件分析毛被表面红外热像图;Excel软件计算毛被的传热系数;SPSS17.0软件分析黄鼬毛被的部位和性别的差异显著性。实验结果为:(1
诺如病毒是非细菌性急性肠胃炎的最主要的病原体,据世界卫生组织在2015年的报告内容,诺如病毒每年致病人数约1.25亿人,是食源性疾病的首要病因。本研究从CNKI数据库获取数据源,以Cite Space软件为可视化分析工具,绘制出我国诺如病毒研究领域的科学知识图谱。本研究对所获得的科学知识图谱进行分析,得到了我国诺如病毒研究领域中各研究机构之间的合作关系及各研究作者之间的合作关系情况,分析了我国诺如
增值评价是一种发展性评价,旨在引导学生多元化发展。本文以“宁夏水稻种植”为例,立足于区域资源环境,结合农业区位、农业地域类型等地理知识,以增值评价理念为指导,评价遵循普适性、过程性、发展性、差异性、自主性、创新性等基本原则,从教学内容、过程、方法和形式四个方面挖掘教学过程的“增值点”进行评价,促进地理核心素养的落实,以期达成激发学生地理学习热情、促进学生可持续发展的目标。
手语是听障人士交流的主要方式,主要通过手臂以及手部动作、身体运动轨迹以及面部一些细微的动作来表示。但对于不熟悉手语的人群来说,要理解手语的含义十分有难度。根据世界卫生组织数据显示,在全球范围内,患有残疾性听力损失的人数已达4.66亿之多。研究手语识别对于听障人士之间相互交流以及听障人士与非听障人士交流有着重要意义,能够促进听力及语言障碍者获取更加便捷的学习、工作与生活方式。手语识别的目的是将手语视
工业机器人的振动会降低其疲劳寿命,影响其工作效率。长期以来,人们一直在研究如何减小机器人的振动,改善机器人的动态性能。针对这些问题,本课题组将“多自由度可控机构”推广到机器人机构领域,提出一类新型可控机构式机器人机构。为了研究这类机器人机构的动态性能,避免其发生异常振动,本文以一种所研制的机器人机构为研究对象,对其动态性能及振动特性进行深入研究,主要内容包括:对新型可控机构式机器人机构的构型进行分
7A52铝合金是Al-Zn-Mg系高强铝合金,传统弧焊时焊接变形大,接头软化严重、易产生焊接缺陷。激光焊接及复合焊接是近几年迅速发展的新型焊接工艺,拥有焊接变形小、焊接效率高、焊缝质量好等优点。为探索7A52铝合金激光焊及复合焊焊接工艺,本课题开展7A52铝合金激光焊接及激光-MIG复合焊接工艺试验研究。首先进行7A52铝合金高功率激光焊焊接试验,研究发现激光功率为7k W,焊接速度为2.1m/m