论文部分内容阅读
[摘要]随着Web应用的高速发展和广泛普及,在Web服务器上收集大量的Web日志,这些日志记录Web用户对Web页面的每一次访问的过程,是一种宝贵的信息财富。主要介绍数据挖掘技术的应用。
[关键词]Web日志 数据挖掘 应用
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220072-01
一、Web数据挖掘技术
数据挖掘就是从大量的数据中提取隐含的、事先未知的、具有潜在价值的有用信息。随着Web技术的发展,我们的网络正在面临着信息时代的挑战,大量的数据和记录充斥Internet,如何从中找到我们需要的有价值的信息和知识是我们面临的问题。Web数据挖掘就是从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息的过程。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。
(一)Web数据挖掘技术概述
Web数据挖掘可分为内容挖掘、使用记录挖掘和结构挖掘等。所挖掘的对象为服务器日志数据、在线市场数据、Web页面、Web页面超链接关系及其它信息,通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进我们的Web服务端设计。而更重用的是,通过对这些用户特征的理解和分析,可以有助于开展有针对性的电子商务活动,而对每个用户访问行为、频度、内容等的分析,能提取出每个用户的特征,为用户提供个性化的电子商务服务。发现Web用户访问模式可改进网站的拓扑结构以及改善分布式网络系统的性能,如在有高度相关的站点间提供快速有效的访问通道,帮助改善市场营销决策等等。
(二)Web使用挖掘的过程
Web使用挖掘过程主要包括数据预处理过程、发现模式的过程以及分析结果模式的过程。如下图1所示。

二、数据挖掘技术的应用
数据挖掘技术的潜在应用是十分广泛的,从政府管理决策、商业经营、科学研究、工业企业决策支持和Internet服务等各个领域都可以找到数据挖掘技术的用武之地。下面举出目前开展的比较活跃的数据挖掘的应用方向。
(一)商业中的应用
其实,数据挖掘技术从一开始就是面向应用的。目前,在银行、电信、保险、交通、零售(如超级市场)等商业领域,数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation&Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
(二)企业中的应用
数据挖掘可用于对企业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助经营决策的关键性数据,可以挖掘出影响生产能力的关键因素如预测机器故障、预测生产销售额、决定库存量、批发点分布的规划、调度等,甚至在企业危机管理中也得到了普遍的应用。信息是企业竞争的关键因素。在企业管理过程中,可以利用Web挖掘技术对企业外部环境信息进行收集、整理和分析,尽可能地收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、消费者等与企业发展有关的信息,集中精力分析处理那些对企业发展有重大或潜在重大影响的外部环境信息,抓住转瞬即逝的市场机遇,获得企业发展的先兆信息,采取有效措施规避危机,促使企业健康、持续地发展。
利用数据挖掘技术、数据仓库技术和联机分析技术,管理者能够充分利用企业数据仓库中的海量数据进行分析,并根据分析结果找出企业经营过程中出现的各种问题和可能引起危机的先兆,如经营不善、观念滞后、产品失败、战略决策失误、财务危机等内部因素引起企业人、财、物、产、供、销的相对和谐平衡体遭到重大破坏,对企业的生存、发展构成严重威胁的信息,及时做出正确的决策,调整经营战略,以适应不断变化的市场需求。
(三)Internet上的应用
Internet上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。除了Web内容,其服务效率也很重要,通过Web日志数据挖掘,可以提供网站服务效率全方位的信息。从而有助于找到平衡服务器负荷,优化传输减少拥塞的方法,缩短用户等待时间,提高系统效率和服务质量。
随着Internet技术的迅猛发展,Web结构的复杂度也在飞速地提高。因此,Web站点和Web服务器的设计和维护难度也在增加,通过Web日志数据挖掘提供的用户使用网站信息,可以帮助网站设计者确定如何修改网站结构。
参考文献:
[1]吴艳,web日志挖掘技术的研究及应用[D].杭州,浙江工业大学.
[2]杨厚群,web日志挖掘技术及应用研究[D].重庆,重庆大学.
[关键词]Web日志 数据挖掘 应用
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0220072-01
一、Web数据挖掘技术
数据挖掘就是从大量的数据中提取隐含的、事先未知的、具有潜在价值的有用信息。随着Web技术的发展,我们的网络正在面临着信息时代的挑战,大量的数据和记录充斥Internet,如何从中找到我们需要的有价值的信息和知识是我们面临的问题。Web数据挖掘就是从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息的过程。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。
(一)Web数据挖掘技术概述
Web数据挖掘可分为内容挖掘、使用记录挖掘和结构挖掘等。所挖掘的对象为服务器日志数据、在线市场数据、Web页面、Web页面超链接关系及其它信息,通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进我们的Web服务端设计。而更重用的是,通过对这些用户特征的理解和分析,可以有助于开展有针对性的电子商务活动,而对每个用户访问行为、频度、内容等的分析,能提取出每个用户的特征,为用户提供个性化的电子商务服务。发现Web用户访问模式可改进网站的拓扑结构以及改善分布式网络系统的性能,如在有高度相关的站点间提供快速有效的访问通道,帮助改善市场营销决策等等。
(二)Web使用挖掘的过程
Web使用挖掘过程主要包括数据预处理过程、发现模式的过程以及分析结果模式的过程。如下图1所示。

二、数据挖掘技术的应用
数据挖掘技术的潜在应用是十分广泛的,从政府管理决策、商业经营、科学研究、工业企业决策支持和Internet服务等各个领域都可以找到数据挖掘技术的用武之地。下面举出目前开展的比较活跃的数据挖掘的应用方向。
(一)商业中的应用
其实,数据挖掘技术从一开始就是面向应用的。目前,在银行、电信、保险、交通、零售(如超级市场)等商业领域,数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation&Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。
(二)企业中的应用
数据挖掘可用于对企业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助经营决策的关键性数据,可以挖掘出影响生产能力的关键因素如预测机器故障、预测生产销售额、决定库存量、批发点分布的规划、调度等,甚至在企业危机管理中也得到了普遍的应用。信息是企业竞争的关键因素。在企业管理过程中,可以利用Web挖掘技术对企业外部环境信息进行收集、整理和分析,尽可能地收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、消费者等与企业发展有关的信息,集中精力分析处理那些对企业发展有重大或潜在重大影响的外部环境信息,抓住转瞬即逝的市场机遇,获得企业发展的先兆信息,采取有效措施规避危机,促使企业健康、持续地发展。
利用数据挖掘技术、数据仓库技术和联机分析技术,管理者能够充分利用企业数据仓库中的海量数据进行分析,并根据分析结果找出企业经营过程中出现的各种问题和可能引起危机的先兆,如经营不善、观念滞后、产品失败、战略决策失误、财务危机等内部因素引起企业人、财、物、产、供、销的相对和谐平衡体遭到重大破坏,对企业的生存、发展构成严重威胁的信息,及时做出正确的决策,调整经营战略,以适应不断变化的市场需求。
(三)Internet上的应用
Internet上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。除了Web内容,其服务效率也很重要,通过Web日志数据挖掘,可以提供网站服务效率全方位的信息。从而有助于找到平衡服务器负荷,优化传输减少拥塞的方法,缩短用户等待时间,提高系统效率和服务质量。
随着Internet技术的迅猛发展,Web结构的复杂度也在飞速地提高。因此,Web站点和Web服务器的设计和维护难度也在增加,通过Web日志数据挖掘提供的用户使用网站信息,可以帮助网站设计者确定如何修改网站结构。
参考文献:
[1]吴艳,web日志挖掘技术的研究及应用[D].杭州,浙江工业大学.
[2]杨厚群,web日志挖掘技术及应用研究[D].重庆,重庆大学.