Web日志分析系统的设计与实现

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:whlwzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今互联网中的数据呈现爆炸式的增长,如何从海量数据中发现潜在的规律和知识已经是一个不可回避的问题,而Web挖掘可以很好地解决这一问题。Web日志挖掘是Web挖掘的重要研究方向,目的在于从大量的Web日志数据中挖掘出用户的浏览行为和兴趣偏好,以便于调整站点结构和更有针对性地向用户推荐页面或服务。本文对Web日志挖掘的相关理论和和完成过程进行了全面而系统地阐述、分析,同时,提出了一种适用于高校网站的改进的模式挖掘算法。首先,要预处理采集到的原始Web日志数据,依次经过数据清洗、用户识别、会话识别、路径补充和事务识别步骤,不仅过滤了数据,还把Web日志转换成事务数据库,为模式挖掘奠定了基础。其次,深入分析了关联规则挖掘思想以及Apriori算法。针对Apriori算法操作麻烦,需要多次重复扫描数据库来产生候选集的问题,本文创新性地在软集模型下进行关联规则挖掘,提出了一种基于软集的最大关联规则挖掘算法。软集理论作为一个新兴的处理不确定性问题的工具,因其在模型描述上的简单而独特,被成功应用在决策问题中。本文将事务数据库用软集表示后,使其呈现出更加丰富的知识和信息,在软集上进行关联规则挖掘能够达到更好的效果。为了避免对属性支持子集的蛮力搜索,本文提出了软最大关联规则算法,不但可以保障挖掘结果的精度,而且在时间复杂度上表现出了突出的优势。最后,本文设计并编程实现了Web日志分析系统。系统采用软最大关联规则算法对高校网站日志进行规则提取,并将挖掘到的关联规则通过系统界面呈现给用户。除此之外,系统还设有性能分析模块,可以统计分析页面的点击数、页面停留时间、用户来源和受欢迎页面等,使网站管理者对用户网站访问情况进行更详细的了解,以此为参照对网站进行改进。
其他文献
2013年11月23日~29日,全国人大常委会副委员长吉炳轩带领调研组来到河南,深入信阳、南阳、新乡、开封和郑州,重点围绕农业产业化、农村城镇化、农民合作化等进行调研,并以随记方式
网络的飞速发展,使经济、文化、教育等都发生了翻天覆地的变化。尤其在经济方面,网络的作用更是非比寻常。然而,网络经济在迅速发展的同时,也出现了一些新问题,例如网络垄断协议问
妇科门诊手术室是妇科门诊患者实施手术的场所,随着研究者对新型冠状病毒认识的不断加深,患者流行病学特点和临床症状不典型,通过健全新型冠状病毒肺炎疫情期间妇科门诊手术
快速发展的物联网技术在实现农业集约、高产、优质等方面都有极其重要的影响,也将农业信息化提供坚实的发展基础。本论文面向农业物联网研究建立监测判别模型所使用的数据挖
我院自2002年至2003年共应用后路椎弓根钉复位固定加单枚斜向椎间融合器手术治疗腰椎滑脱患者36例疗效满意,报道如下.
随着网络信息技术的不断发展,网络上充斥着大量的各类被称为大数据的非结构化数据。然而,这些数据不容易被存储到本地数据库中进行访问和处理。人们渐渐地意识到,高效率地从
老年患者由于其基础病较多,并发症重,经常采用静脉给药途径;另外,老年人的手足浅静脉血管弹性差、易渗出,静脉穿刺困难,每天反复穿刺给患者带来很大的痛苦和心理负担.影响治疗与康复
摘要:职业学校只有按照《国家职业教育改革实施方案》要求,实施创新驱动,完善职业教育制度体系,明确办学的目标和方向,着力加强制度建设、队伍建设、课程建设,创新育人机制,实施科学管理、规范管理、创新管理,形成办学特色,才能实现学校高质量发展。  关键词:高质量发展;内涵特征;推进路径;职业学校  中图分类号:G718 文献标志码:A 文章编号:1673-9094-(2020)09C-0043-04