论文部分内容阅读
近年来,随着Internet的迅猛发展,WWW技术已经成为了广泛应用,遍布世界各地的信息服务中心,数据挖掘技术也越来越多的应用到万维网中,于是产生了Web数据挖掘技术,Web使用模式挖掘是Web数据挖掘的重要组成部分。
本文以金卫医学教育网为研究对象,深入研究了在针对金卫网的Web使用模式挖掘过程中遇到的各种问题,并探讨了相应的处理方式。在数据预处理阶段,采用基于启发式的数据预处理算法,从而高效,准确地实现数据清洗,用户识别和路径补充。在挖掘实施阶段,通过矩阵归一化方法改进传统模糊聚类算法,有效解决了奇异数据点引起的偏差问题。通过分析金卫网Web服务器日志文件信息和数据库相关记录,采用模糊聚类分析方法,发现具有相似学习行为学员群体,相关页面和频繁访问路径。在此基础上,深入探讨了不同学员群体的行为特征,针对其行为特征,分析预测其可能感兴趣的医学资料信息,为金卫网的网站管理人员提供决策依据,使其针对不同类型的学员采取不同的宣传推荐策略,从而为医学学员提供个性化的服务。通过分析相关页面,可以帮助网站管理者发现页面间链接结构不合理的地方,以修改网站拓扑结构,方便学员访问浏览。通过分析频繁访问路径,让管理者及时发现系统瓶颈,增加预留缓存解决网络拥堵,从而优化网站结构。另外通过分析那些被频繁访问的资源以及不同类型学员的学习需求,可以对医学资源库的建设提供参考意见。
本文采用的主要方法和技术如下:⑴采用模糊处理技术,对构造的关联矩阵进行聚类分析。⑵将Web日志记录和数据库表记录结合起来,在数据预处理阶段方便数据清洗和用户识别;在模式分析阶段,便于对学员进行准确定位。
本文的特色和创新之处在于:①采用启发式规则改进数据预处理算法,有效提高了预处理阶段算法的效率和识别的准确度。②采用矩阵归一化方法将数据建模后的关联矩阵进行处理,以消除异常数据对聚类结果产生的偏差。