【摘 要】
:
随着Internet的飞速发展,网上的数据资源空前的丰富。每天都会有成千上万的用户在网络上浏览和寻找自己所需的信息。然而,由于庞大的信息量,对于每个用户来说,如何能够及时快
论文部分内容阅读
随着Internet的飞速发展,网上的数据资源空前的丰富。每天都会有成千上万的用户在网络上浏览和寻找自己所需的信息。然而,由于庞大的信息量,对于每个用户来说,如何能够及时快速的发现有用信息则变得异常的困难。为了解决上述问题,Web挖掘技术应运而生。其中,面向Web服务器日志的Web使用挖掘技术尤其得到了广大研究人员的关注。Web日志数据记录了用户对Web站点的访问信息,对这些信息进行分析可以发现用户访问站点的浏览模式和访问习惯,对于页面重组,优化网站的结构,以及在电子商务智能的应用等方面都具有十分重要的意义。随着中国经济的不断发展,中小企业起到了巨大的推动作用。ASP模式的业务租赁模式满足了中小企业信息化建设和服务的需要。关联规则挖掘是数据挖掘领域中一个非常重要的研究课题,其本质是从大量的数据中或对象间抽取关联性,进而揭示数据或对象间的依赖关系。本文讨论了Web使用挖掘对日志文件数据的采集技术、数据预处理、模式识别和模式分析技术,并针对ASP模式的中小企业制造业信息化平台的建设与完善给出建议,并为用户提供个性化信息服务。第一、介绍了数据挖掘的起源、实现的功能、国内外发展现状和目前采用的一些技术手段,还详细介绍了Web挖掘的分类和特点;第二、探讨了简单的聚类算法,关联规则挖掘的经典算法Apriori算法及其实现;聚类算法首先对用户类型进行分类,是后面主要的关联规则挖掘的基础;第三、讨论了Web使用挖掘系统设计,包括日志文件采集、数据预处理、模式发现和模式分析采用的技术方法;第四、对关联规则挖掘出来的模式进行分析并应用,对平台网站的优化给出建议。
其他文献
矩阵是数值代数中的一个基本概念,许多科学计算问题往往都可以归结为对矩阵的操作。在许多应用中,需要用到较长的矩阵链相乘,例如机器人,机器控制,以及计算机动画等。矩阵链
关联规则挖掘是数据挖掘的一个重要内容,计算频繁项集是关联规则挖掘中的关键技术和步骤。这方面的算法主要代表有两类:Apriori类算法、FP-Growth类算法。Apriori类算法缺陷之
随着互联网和电子商务的快速发展,各种商业活动和人们的日常生活越来越多的依靠网络来进行,如电子现金交易、电子拍卖、电子招标和电子合同的签署等。在复杂的网络环境下,如
在过去的数十年中,无论是商业企业、科研机构或者政府部门,MIS系统(Management Information System,管理信息系统)都被广泛地应用在信息管理上。以事务处理为主的MIS系统在方
XML自出现以来,就以其强大的跨平台交换的能力、数据表达能力以及简单、开放性、可扩展等优点而逐渐成为互联网上信息发布和交换的事实标准。由于XML数据的开放性,特别是网络
随着互联网技术的快速发展,网上信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。搜索引擎在给用户获取信息带来方便的同时也把用户带入了信息过载的窘境。
膜计算作为自然计算的一个新分支,是受生命细胞的结构和功能以及高级生命组织和器官间的协作所启发的一种计算模型,这种计算模型普遍称为P系统。由于其具有分布式、并行计算
随着互联网的发展,涌现出大量同类网站(例如房产网、吃玩网、旅游网等),由于各个网站间信息的孤立性,人们为获得有效信息不得不游离于各个网站之间。虽然,像谷歌、雅虎、百度
随着机场信息化的不断发展,网络规模不断扩大,网络结构变得越来越复杂和多样化。如果某个网络设备出现故障或运行状态不佳,将会导致运营效率的下降,甚至导致整个机场的瘫痪。传统
由于误报率低并且报警结论明确,滥用检测一直是实践中入侵检测系统(IDS)主要采取的技术。同时,面对现实中越来越多的多阶段入侵,人们的共识是将多阶段入侵视为由多个行为组成、