【摘 要】
:
随着校园网的发展和普及,其积累了巨量的校园网上网认证数据。从校园网认证数据中挖掘有价值的信息具有重要的研究意义,其中校园网用户行为研究是其中的热门研究课题之一。在传统的研究当中,学者往往利用经验值作为聚类个数对不去离群点的认证数据进行聚类,因此聚类个数的确定带有人为主观性且聚类结果会受到离群点的影响。本文主要工作是先对校园网认证数据进行聚类获取用户上网时间行为特征;并考虑在去除离群点同时自动确定聚
论文部分内容阅读
随着校园网的发展和普及,其积累了巨量的校园网上网认证数据。从校园网认证数据中挖掘有价值的信息具有重要的研究意义,其中校园网用户行为研究是其中的热门研究课题之一。在传统的研究当中,学者往往利用经验值作为聚类个数对不去离群点的认证数据进行聚类,因此聚类个数的确定带有人为主观性且聚类结果会受到离群点的影响。本文主要工作是先对校园网认证数据进行聚类获取用户上网时间行为特征;并考虑在去除离群点同时自动确定聚类个数问题,设计并实现FRCK(Fusion of Rough Clustering and K-means)算法;除此之外,本文还对用户上网空间行为进行研究。对于用户上网时间行为特征研究,其主要研究内容有:抽取和清洗本科生上网认证数据,并计算出每位学生每天对应的上网时长向量;通过改进Canopy算法得到K-Canopy算法来去除离群点;通过性能指标投票机制得到最佳聚类个数;利用K-means算法分别对工作日和周末上网时长向量集进行聚类;分析聚类结果得到各类学生的上网时间特征,在此基础上对比4年的学生上网特征,挖掘学生时间行为特征的变化规律。实验结果可为学生管理等工作提供参考。对于FRCK算法,其能够在迭代运算的过程中动态去除离群点的同时自动确定聚类个数。主要研究内容有:给出FRCK算法相关的定义和术语;确定一个初始聚类个数,即K值;通过中心值更新和K值更新两个步骤相互迭代,去除离群点的同时让K值稳定到一个最优值;设立两组对比实验对预处理的学生上网认证数据集进行聚类,以此验证FRCK算法可以动态去除离群点和确定最佳聚类个数。实验结果表明FRCK算法具备可行性和性能优异性。对于用户上网空间行为特征,其主要研究内容有:利用Map Reduce计算模式的分布式算法统计校园内各建筑物的无线网络连接人次;获取建筑物的经纬坐标,并利用R-树索引和密度聚类算法对校园区域划分,得到10个区域;结合统计结果和聚类结果得到区域连接人次;分析结果挖掘人群聚集区域和区域之间人群移动规律。实验结果可为学校校车路径规划、共享单车部署和校园功能区规划等工作提供参考。
其他文献
杂交稻具有分蘖能力强和产量高等特点,是我国水稻生产的主要品种,为保障我国粮食安全做出了重要贡献,目前杂交稻主要采用机械插秧和人工插秧两种方式,机械化种植水平偏低。机械化直播是一种轻简化水稻栽培技术模式,具有省工、省时、省力、通风透气性好、病虫害少、分蘖节位低和后期长势好等优势。根据杂交稻的生长特性,要求采用精少量播种,现有的机械式排种器主要适合中等播量品种,气力式排种器具有对芽种损伤少和对稻种外形
本文以"蜜雪冰城"洗脑广告为切入点及主要研究对象,以精细加工可能性模型中的边缘路径为依据,通过分析广告信息中心的AMO三因素,论证洗脑广告引发非理性消费的路径和产品特征。
吊索作为一种拉索构件,广泛应用于各种工程结构中,如悬索桥、拱桥等。随着工程结构跨度的不断增大,吊索的长度也在不断增加。长吊索由于其长细比小,柔性大,引起的一系列振动问题就出现的较频繁,导致其大幅度振动的概率也增加,且出现许多线性振动理论无法解决的现象,如参数振动等。在工程实际中,通过对已建成或在建的吊索结构的观测表明,长吊索在微风微雨的情况下,个别长吊索有时会发生剧烈的大幅振动,可能引起吊索的疲劳
深海钻井船作为一种兼具试采、储存和油气处理能力的高端海洋工程装备,可在中国南海等多区域进行作业工作。但是深海区域海洋环境条件恶劣,油气资源开发难度高,针对深海钻井船这一特殊船型,利用挪威船级社(DNV)SESAM软件进行波浪载荷研究,并结合相关规范进行有限元强度分析,结果符合设计要求,可为今后相关船型设计提供依据,具有一定的工程意义。
语文知识基于母语又包罗万象,语文教学的方法丰富多彩且灵活多变。如何在日常的语文教学过程中把握好复杂的语言和文本特点,有效提升课堂教学效果和质量?教学设计是重中之重,也是语文教育工作者一直以来广泛关注的课题。由余立新、缪佳芹著,西南师范大学出版社于2014年出版的《语文教学设计》一书,围绕如何巧妙作好语文课堂教学设计这一核心课题展开。
视频是人类对客观事物视觉感知的生动重现,是人类社会活动中最常用、最重要的信息载体,是人们获取外部信息的主要途径。随着通信网络和微电子技术的发展,一些新兴的应用如低功率无线视频监控网络、视频传感器网络等得到了快速的发展。这些新的应用由于编码端资源有限、功耗有限,不太适合采用传统的视频编码算法。分布式视频编码(Distributed Video Coding,DVC)由于其编码端复杂度低、具有良好的率
动脉粥样硬化以及其相关的血栓性疾病会导致心肌梗塞和中风,是人类健康的重要威胁。无论在动脉粥样硬化过程还是其后血栓的形成过程中,血小板都发挥着重要的作用,这是因为其具有特殊的能力能够在血流环境下黏附到受损的血管处以及其他的激活血小板上。随着人们对VWF分子介导的血小板黏附和血栓形成过程的认识,一系列治疗中风和心脑血管疾病的药物得以研制出来,其中单克隆抗体药物有着重要的地位。但是通过杂交瘤技术和噬菌体
数据中心是云计算的基础核心,是IaaS的基础平台。在数据中心中,数以千计的服务器和网络设备通过数据中心网连接起来,为用户提供服务。模块化数据中心通过在标准集装箱内预置计算资源、网络设备、电力设备等构成基本数据中心块,具有可快速部署、扩展性强、移动性好等优点。模块化数据中心网应满足具有较高的连接密度、高效的路由算法、较好的容错性等要求。针对模块化数据中心网的拓扑研究是研究热点之一。代数图论是一种采用
本文主要是研究2-toroidal李代数的模.根据不同的三角分解及PBW定理来构造最高权模,然后研究它们的性质,包括可约性、可积性等.同时在圈代数的表示基础上,研究了Kirillov-Reshetikhin模的fusion product,讨论了分次特征不同的表达式及性质.在第一章中,我们论述了本文的研究背景及研究意义,简要介绍了无限维李代数的研究历史与进展,阐述了toroidal李代数的表示以及
机器人路径规划是机器人导航技术中的一个重要基础问题,已取得了很多研究成果,目前大多数研究都指向如何躲避障碍物,并通过全局或者局部优化寻找无障碍物的最短路径。但是,在机器人的现实工作场景中,有时很难找到无障碍物阻挡的情况,同时,有些情况下可以移除或移动障碍物而不一定非要躲避障碍物。这两个实际情况,引发了机器人路径规划研究领域新的思考,最小约束去除(Minimum Constraint Removal