论文部分内容阅读
[摘 要] 基于Web的数据挖掘是一个结合了数据挖掘和WWW的热门研究主题。本文从CRM和Web数据挖掘的概念入手,介绍了Web数据挖掘的工作流程以及Web数据挖掘在CRM中的应用,最后从几个方面讨论了Web数据挖掘在CRM应用中的问题及对策。
[关键词] CRM;Web数据挖掘;问题;对策
[中图分类号]F270.7;F273.7[文献标识码]A[文章编号]1673-0194(2008)18-0080-04
在Internet技术迅猛发展的今天,面对Web上浩瀚的数据信息,如何帮助人们有效地收集、选择和存储所感兴趣的信息,以及在日益增多的信息中发现新的概念和它们之间的关系,实现信息处理的自动化,已成为现今IT研究的热点问题。Web数据自身的特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。同时,Web数据挖掘也为研究基于数据挖掘技术的CRM系统提供了新的思路和技术支持,可以帮助企业从海量的数据中发现潜在的知识,支持企业制定高效的CRM策略,从而大幅提升CRM的运行效率。
1 客户关系管理(CRM)的概念
客户关系管理(Customer Relationship Management,CRM)的思想和解决方法由来已久,从最早的客户信息系统(Customer Information System,CIS)到联系人管理、销售管理、呼叫中心,一直到现在的客户关系管理系统。
目前,对CRM还没有统一的定义,本文给出如下的定义:CRM是指企业与客户之间建立的管理双方接触活动的信息系统,通过有效管理客户信息资源,分析客户的需求特征,不断发现客户的价值,为客户提供满意的产品与服务,从每一个与客户接触的地方着手,在企业与客户之间建立起长期、稳定、相互信任的良好关系,为企业锁定老客户、吸引新客户,通过实现客户效用的最大化获得超额利润,提高企业竞争力。
CRM的核心思想是了解客户所想,满足客户所需,从而提高企业经营绩效。
2 Web数据挖掘的含义及工作流程
2. 1Web数据挖掘的定义
Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。
对Web数据挖掘一般做如下的定义:
Web数据挖掘是指从Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么Web数据挖掘的过程就是从输入到输出的一个映射:
ξ C → P。
Web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。
2. 2Web数据挖掘的工作流程
根据Web数据的特点,结合数据挖掘的一般流程,可以将Web数据挖掘流程分解为如图1所示的5个环节,包括获取数据源、数据选择和预处理、模式发现、模式分析和知识表达。
(1)获取数据源。根据客户的要求,从Web资源中提取所需要的相关数据,包括Web文档、电子邮件、电子文档、新闻组、网站日志、Web交易数据库等。
(2)数据选择和预处理。从目标数据集中去除明显的错误数据和冗余数据,进一步精简数据,选择数据的有效部分,并将数据转化成进行数据挖掘和分析的有效形式,比如规整的逻辑形式甚至是关系表。
(3)模式发现。对前面经过预处理的数据自动进行模式发现,可以在同一个站点内部或在多个站点之间进行。
(4)模式分析。验证、解释上一步骤发现的模式,必要时需要返回前面的某些步骤以反复提取。可以由机器自动完成,也可以通过机器与分析人员进行交互来完成。
(5)知识表达。最后将发现的知识以客户能理解的方式提供给客户。
3 Web数据挖掘在CRM中的应用
(1)客户保持。CRM管理中,首先提倡的是保持现有的客户,实现现有客户的重复购买,其次才是开拓新市场、吸引新客户。企业可通过数据挖掘对客户数据库中大量的客户历史交易记录、人口统计信息及其他相关资料进行分析和处理,对流失客户群做针对性研究,分析其特征,研究哪些因素会导致客户流失,建立流失客户、潜在离开者等模型,针对不同客户采用不同的客户保持策略。
(2)获取新客户。分类和聚类等挖掘方法可以把大量的客户根据其性别、收入、交易行为特征等属性分成不同的群体,对客户进行细分。通过群体细分,可以更好地理解客户,发现群体客户的行为规律,这样就有助于企业在营销中更加贴近顾客需求。
(3)交叉营销。交叉营销是指向已购买商品的客户推荐其他产品和服务。企业通过对原有客户实施交叉销售,既可以因销售额的增长而获益,又可以通过为客户提供更多更好的产品和服务来增进与客户之间的良好关系。这种策略成功的关键是要确保推销的产品是客户所感兴趣的,关联规则分析、聚类分析等挖掘方法都可以应用于此。
(4)对客户进行分析。主要包括客户盈利能力分析、客户背景分析、客户满意度分析、客户信用分析和购买行为分析等。通过这样的分析,企业可以根据不同的客户,制订相应的营销方案和市场策略,可以将有限的精力和资源投放在对企业赢利最为有用的地方,从而有效地降低企业成本,提高收益。
4 Web数据挖掘在CRM应用中的问题及对策
4. 1Web中数据量大,类型复杂
客户每次在Web站点上点击网页时都会产生很多信息,Web服务器可以记录下这些信息,包括客户身份、访问页面和时间戳等。可以利用这些信息对客户进行数据挖掘分析。但在Web上可以用作数据挖掘分析的数据量比较大,而且类型众多,比较复杂。下面介绍几种从Web站点中获取有关CRM的一些有价值的数据的途径。
4. 1. 1提取Web服务器中的访问日志信息
访问Web站点的客户每次从Web服务器上请求一个文件,该文件条目放在一个称为访问日志的ASCⅡ文本文件中。访问日志记录客户点击请求以及每次执行成功或失败的请求。在访问连接期间,每次事务操作都被顺序地记录在访问日志中,访问日志是发现谁访问了Web站点、访问了什么页面的关键组件。另外,还有一种日志称为引用日志,它是Web服务器上的日志文件,它包含客户的访问位置和引入Web站点的关键词或路径,关键词用于定位Web站点或Web页面,所有这些都将在引用日志中指出。
4. 1. 2利用Cookies信息
Cookies是客户访问站点时由Web服务器传递到客户浏览器的少量的信息,存储在客户自己硬盘中。Cookies详细描述了客户访问站点时浏览了哪些地方。当客户返回到同一Web站点时,Cookies能够确定客户的身份和偏好。尽管Cookies的使用己经在Internet上引起有关个人隐私的争论,但是对于Web站点,特别是电子商务站点,已经把Cookies作为提供个性化Web页面和产品的关键营销工具。
4. 1. 3从表单或客户注册信息中获取数据
客户在进入站点时都需要注册个人信息,如姓名、地址、出生日期、性别、职业等;另外,客户在查询或购买商品时也需要填写表单信息,Web站点能够获取这些重要的数据,为随后的挖掘产生有价值的数据库。
4. 1. 4利用电子邮件系统获取数据
许多Web站点都有电子邮件链接,它使得客户能及时地查询产品和服务,并提供重要的对公司电子商务网站、产品或服务的反馈信息。Web数据挖掘技术能够对客户电子邮件反馈数据进行挖掘和分析,产生对商业趋势和利润分析有价值的信息。Web站点可以将挖掘结果自动地用电子邮件通知某些客户,比如关心优惠或打折信息的目标客户群体,并最终依据客户对初始邮件的响应来寻找更多的优惠措施。
4. 1. 5从非Web信息库中获取数据
会计系统、自动销售数据库等非Web信息库的数据能够补充和加强从Web购买记录中搜集的信息,如客户名称、地址、邮政编码、商品选择和销售价格。另外,还可以从其他第三方Internet数据提供商购买个人在线行为数据,并分析这些信息得到有用的结果。
4. 2Web中对客户身份的识别比较困难
如果位于Web上的每一台客户机器都拥有自己唯一的IP地址,那么对Web上客户的识别就比较容易。但是客户机器一般都采用动态IP技术,客户每次登录Web时都拥有一个与上次不同的IP地址,这就使单独使用IP地址来识别客户的方法行不通。为了精确识别客户,需要足够的数据,而收集这些数据遇到的最大的两个问题就是客户端缓存和代理服务器缓存。
为了提高效率,客户端的浏览器采用了缓存技术,即保存客户最近访问的页面,当客户“后退”时,客户端浏览器就不再向服务器发送请求,这样达到了方便客户和增效的目的,但服务器却无法探测到客户的重复访问动作,更无法在服务器日志文件中记录。代理服务器提供了一个中间缓冲层,这为识别客户带了更大的问题,在服务器日志文件中,所有通过代理服务器发来的客户请求均具有同样的客户标志,即使这些请求是多个客户发起的。
针对客户身份识别过程中出现的种种情况,可以采用以下几种Web技术来进行处理:
4. 2. 1利用Cookies技术
Cookies可以记录客户的ID、密码、浏览过的网页、停留的时间等信息。从本质上讲,它可以看作是客户的身份证。Cookies是大部分网站用来管理客户会话和跟踪客户的主要方法,它主要通过两种方法来设置和存取。一种是通过Web服务器本身来设置和存取;另一种是在客户端通过脚本语言(Java Script等)来进行设置。Cookies在客户第一次访问网站时设置一个唯一的标识,不能重复使用并且始终与该客户有关,有效期限应该足够长以便使该Cookies在当前访问和至少在下一次可能访问之间保持有效。这样每当客户重复访问时,不管它进入网站的哪个页面,其身份都能被识别。所以每当客户重返网站时,在访问期间所浏览的所有网页都会与一个具体的客户相联系。
4. 2. 2利用URL重写技术
如果客户端浏览器禁止Cookies的使用,那么可以使用另一种技术来识别重复访问客户身份——URL重写技术。它是将需要来回传送的信息置入查询字符串中,通过URL来进行传递。如果企业想从一个网页到另一个网页对客户进行跟踪,那么就可以把客户名作为查询字符串的一部分追加到这些网页中的每一个链接中。这种技术可以用来跟踪客户访问Web站点的路径,因为访问过的每个页面的URL都被记录在服务器日志中,包括查询字符串。
4. 2. 3使用隐藏表单域技术
另一种传送状态信息的技术是使用隐藏表单域。表单是Web客户向Web服务器提交信息的工具。简单地说,表单就是客户可以在网页中填写信息的表格,其作用是接收用户信息并将其提交给Web服务器上特定的程序进行处理。隐藏表单域是一种特殊的表单域,其目的是在表单中添加一些对用户不可见的信息以区分同一网页上的多个表单。提交表单时,隐藏域的值一同传给表单处理程序,利用该值,可以在同一个表单处理程序中分别对不同的表单进行处理。该方法允许企业网站将一些相关的值放入网页上客户不可见的一些表单域中,一旦客户提交表单,这些值将会被送回Web服务器。
4. 3异构数据源的集成问题
从数据库研究的角度出发,Web网站上的信息可以看作一个更大、更复杂的数据库,Web上的每一个站点都是一个数据源。但是Internet上的每个数据源对数据的描述千差万别,而且这些数据信息具有一定的自我描述性和动态可变性,没有可遵循的特定模型。所以,Web网站上的每个数据源都是异构的,站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。
如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成问题。只有将这些站点的数据都集成起来,提供给客户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果不能很有效地得到所需的数据,对这些数据进行分析、集成、处理就无从谈起。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。
目前,Web站点上的数据信息一般采用HTML描述,信息只能在浏览器中提供数据的显示方式。要想在这种方式下获得数据描述,真正做到准确、高效地挖掘是不可能的,必须寻求新的解决途径。作为Internet上数据表示和数据交换的新标准,XML突破了HTML固定标记集合的约束,可自行定义各种标记描述数据元素和属性,能够反映一定的数据含义,组成一个完整的信息体系,从而获得更大的灵活性和更强的功能。由于XML能够使不同来源的结构化数据很容易地结合,使搜索多样不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望和机会。
4. 4半结构化的数据处理问题
Web上的数据与传统数据库中的数据不同,传统数据库中的数据结构性很强,即其中的数据是完全结构化的数据,都有一定的数据模型(比如关系模型),可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计。虽然Web上的数据具有一定的结构性,但因自述层次的存在,因而还是一种非完全结构化的数据,也被称为半结构化数据。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。
针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。此外,还需要一种半结构化模型抽取技术,即自动从现有数据中抽取半结构化模型的技术。所以,面向Web的数据挖掘必须以半结构化数据模型和半结构化数据模型抽取技术为前提。
面向Web的数据挖掘是一项复杂的技术,近年来,XML及其相关技术的迅速发展为半结构化数据的处理提供了很好的解决方法。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松和有效。
5 结束语
随着社会信息化程度的提高,利用CRM系统进行客户管理,已成为企业提升自身竞争力的重要选择。越来越多的企业认为,能否建立一个高效的CRM系统,已成为增强客户忠诚度、提升自身核心竞争力的关键。而Web数据挖掘技术的迅速发展也为CRM的实施提供了良好的基础平台和技术支撑,该项技术的运用将会增强企业的开发、创新和营销能力,推动企业的整体信息化建设。
主要参考文献
[1] 曼丽春,朱宏,杨全胜. Web数据挖掘研究与探讨[J]. 现代电子技术,2005,28(8):3-6.
[2] 何月顺,丁秋林. 计算机半结构化数据源的数据挖掘技术研究[J]. 哈尔滨工业大学学报,2005,37(10):1363-1369.
[3] 周琪锋. 基于Web的数据挖掘技术的研究[J]. 电脑知识与技术,2007(1):97-103.
[4] 戴艳红,贺红燕. 数据挖掘技术在客户关系管理中的应用研究[J]. 商场现代化,2006(34):240-241.
[5] 陆楠,周春光. Web数据挖掘中异构数据集成问题的研究[J]. 深圳大学学报:理工版,2002,19(3):31-36.
[6] 王晓雪. CRM的理论分析[J]. 苏州市职业大学学报,2004(1):36-38.
[关键词] CRM;Web数据挖掘;问题;对策
[中图分类号]F270.7;F273.7[文献标识码]A[文章编号]1673-0194(2008)18-0080-04
在Internet技术迅猛发展的今天,面对Web上浩瀚的数据信息,如何帮助人们有效地收集、选择和存储所感兴趣的信息,以及在日益增多的信息中发现新的概念和它们之间的关系,实现信息处理的自动化,已成为现今IT研究的热点问题。Web数据自身的特性,使得Web数据挖掘更加复杂,不同于传统的基于数据库的数据挖掘。为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域——Web数据挖掘。同时,Web数据挖掘也为研究基于数据挖掘技术的CRM系统提供了新的思路和技术支持,可以帮助企业从海量的数据中发现潜在的知识,支持企业制定高效的CRM策略,从而大幅提升CRM的运行效率。
1 客户关系管理(CRM)的概念
客户关系管理(Customer Relationship Management,CRM)的思想和解决方法由来已久,从最早的客户信息系统(Customer Information System,CIS)到联系人管理、销售管理、呼叫中心,一直到现在的客户关系管理系统。
目前,对CRM还没有统一的定义,本文给出如下的定义:CRM是指企业与客户之间建立的管理双方接触活动的信息系统,通过有效管理客户信息资源,分析客户的需求特征,不断发现客户的价值,为客户提供满意的产品与服务,从每一个与客户接触的地方着手,在企业与客户之间建立起长期、稳定、相互信任的良好关系,为企业锁定老客户、吸引新客户,通过实现客户效用的最大化获得超额利润,提高企业竞争力。
CRM的核心思想是了解客户所想,满足客户所需,从而提高企业经营绩效。
2 Web数据挖掘的含义及工作流程
2. 1Web数据挖掘的定义
Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。
对Web数据挖掘一般做如下的定义:
Web数据挖掘是指从Web文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,将P看作输出,那么Web数据挖掘的过程就是从输入到输出的一个映射:
ξ C → P。
Web数据挖掘从数据挖掘发展而来,都是在分析大量数据的基础上,做出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略、减少风险并做出正确决策的过程。
2. 2Web数据挖掘的工作流程
根据Web数据的特点,结合数据挖掘的一般流程,可以将Web数据挖掘流程分解为如图1所示的5个环节,包括获取数据源、数据选择和预处理、模式发现、模式分析和知识表达。
(1)获取数据源。根据客户的要求,从Web资源中提取所需要的相关数据,包括Web文档、电子邮件、电子文档、新闻组、网站日志、Web交易数据库等。
(2)数据选择和预处理。从目标数据集中去除明显的错误数据和冗余数据,进一步精简数据,选择数据的有效部分,并将数据转化成进行数据挖掘和分析的有效形式,比如规整的逻辑形式甚至是关系表。
(3)模式发现。对前面经过预处理的数据自动进行模式发现,可以在同一个站点内部或在多个站点之间进行。
(4)模式分析。验证、解释上一步骤发现的模式,必要时需要返回前面的某些步骤以反复提取。可以由机器自动完成,也可以通过机器与分析人员进行交互来完成。
(5)知识表达。最后将发现的知识以客户能理解的方式提供给客户。
3 Web数据挖掘在CRM中的应用
(1)客户保持。CRM管理中,首先提倡的是保持现有的客户,实现现有客户的重复购买,其次才是开拓新市场、吸引新客户。企业可通过数据挖掘对客户数据库中大量的客户历史交易记录、人口统计信息及其他相关资料进行分析和处理,对流失客户群做针对性研究,分析其特征,研究哪些因素会导致客户流失,建立流失客户、潜在离开者等模型,针对不同客户采用不同的客户保持策略。
(2)获取新客户。分类和聚类等挖掘方法可以把大量的客户根据其性别、收入、交易行为特征等属性分成不同的群体,对客户进行细分。通过群体细分,可以更好地理解客户,发现群体客户的行为规律,这样就有助于企业在营销中更加贴近顾客需求。
(3)交叉营销。交叉营销是指向已购买商品的客户推荐其他产品和服务。企业通过对原有客户实施交叉销售,既可以因销售额的增长而获益,又可以通过为客户提供更多更好的产品和服务来增进与客户之间的良好关系。这种策略成功的关键是要确保推销的产品是客户所感兴趣的,关联规则分析、聚类分析等挖掘方法都可以应用于此。
(4)对客户进行分析。主要包括客户盈利能力分析、客户背景分析、客户满意度分析、客户信用分析和购买行为分析等。通过这样的分析,企业可以根据不同的客户,制订相应的营销方案和市场策略,可以将有限的精力和资源投放在对企业赢利最为有用的地方,从而有效地降低企业成本,提高收益。
4 Web数据挖掘在CRM应用中的问题及对策
4. 1Web中数据量大,类型复杂
客户每次在Web站点上点击网页时都会产生很多信息,Web服务器可以记录下这些信息,包括客户身份、访问页面和时间戳等。可以利用这些信息对客户进行数据挖掘分析。但在Web上可以用作数据挖掘分析的数据量比较大,而且类型众多,比较复杂。下面介绍几种从Web站点中获取有关CRM的一些有价值的数据的途径。
4. 1. 1提取Web服务器中的访问日志信息
访问Web站点的客户每次从Web服务器上请求一个文件,该文件条目放在一个称为访问日志的ASCⅡ文本文件中。访问日志记录客户点击请求以及每次执行成功或失败的请求。在访问连接期间,每次事务操作都被顺序地记录在访问日志中,访问日志是发现谁访问了Web站点、访问了什么页面的关键组件。另外,还有一种日志称为引用日志,它是Web服务器上的日志文件,它包含客户的访问位置和引入Web站点的关键词或路径,关键词用于定位Web站点或Web页面,所有这些都将在引用日志中指出。
4. 1. 2利用Cookies信息
Cookies是客户访问站点时由Web服务器传递到客户浏览器的少量的信息,存储在客户自己硬盘中。Cookies详细描述了客户访问站点时浏览了哪些地方。当客户返回到同一Web站点时,Cookies能够确定客户的身份和偏好。尽管Cookies的使用己经在Internet上引起有关个人隐私的争论,但是对于Web站点,特别是电子商务站点,已经把Cookies作为提供个性化Web页面和产品的关键营销工具。
4. 1. 3从表单或客户注册信息中获取数据
客户在进入站点时都需要注册个人信息,如姓名、地址、出生日期、性别、职业等;另外,客户在查询或购买商品时也需要填写表单信息,Web站点能够获取这些重要的数据,为随后的挖掘产生有价值的数据库。
4. 1. 4利用电子邮件系统获取数据
许多Web站点都有电子邮件链接,它使得客户能及时地查询产品和服务,并提供重要的对公司电子商务网站、产品或服务的反馈信息。Web数据挖掘技术能够对客户电子邮件反馈数据进行挖掘和分析,产生对商业趋势和利润分析有价值的信息。Web站点可以将挖掘结果自动地用电子邮件通知某些客户,比如关心优惠或打折信息的目标客户群体,并最终依据客户对初始邮件的响应来寻找更多的优惠措施。
4. 1. 5从非Web信息库中获取数据
会计系统、自动销售数据库等非Web信息库的数据能够补充和加强从Web购买记录中搜集的信息,如客户名称、地址、邮政编码、商品选择和销售价格。另外,还可以从其他第三方Internet数据提供商购买个人在线行为数据,并分析这些信息得到有用的结果。
4. 2Web中对客户身份的识别比较困难
如果位于Web上的每一台客户机器都拥有自己唯一的IP地址,那么对Web上客户的识别就比较容易。但是客户机器一般都采用动态IP技术,客户每次登录Web时都拥有一个与上次不同的IP地址,这就使单独使用IP地址来识别客户的方法行不通。为了精确识别客户,需要足够的数据,而收集这些数据遇到的最大的两个问题就是客户端缓存和代理服务器缓存。
为了提高效率,客户端的浏览器采用了缓存技术,即保存客户最近访问的页面,当客户“后退”时,客户端浏览器就不再向服务器发送请求,这样达到了方便客户和增效的目的,但服务器却无法探测到客户的重复访问动作,更无法在服务器日志文件中记录。代理服务器提供了一个中间缓冲层,这为识别客户带了更大的问题,在服务器日志文件中,所有通过代理服务器发来的客户请求均具有同样的客户标志,即使这些请求是多个客户发起的。
针对客户身份识别过程中出现的种种情况,可以采用以下几种Web技术来进行处理:
4. 2. 1利用Cookies技术
Cookies可以记录客户的ID、密码、浏览过的网页、停留的时间等信息。从本质上讲,它可以看作是客户的身份证。Cookies是大部分网站用来管理客户会话和跟踪客户的主要方法,它主要通过两种方法来设置和存取。一种是通过Web服务器本身来设置和存取;另一种是在客户端通过脚本语言(Java Script等)来进行设置。Cookies在客户第一次访问网站时设置一个唯一的标识,不能重复使用并且始终与该客户有关,有效期限应该足够长以便使该Cookies在当前访问和至少在下一次可能访问之间保持有效。这样每当客户重复访问时,不管它进入网站的哪个页面,其身份都能被识别。所以每当客户重返网站时,在访问期间所浏览的所有网页都会与一个具体的客户相联系。
4. 2. 2利用URL重写技术
如果客户端浏览器禁止Cookies的使用,那么可以使用另一种技术来识别重复访问客户身份——URL重写技术。它是将需要来回传送的信息置入查询字符串中,通过URL来进行传递。如果企业想从一个网页到另一个网页对客户进行跟踪,那么就可以把客户名作为查询字符串的一部分追加到这些网页中的每一个链接中。这种技术可以用来跟踪客户访问Web站点的路径,因为访问过的每个页面的URL都被记录在服务器日志中,包括查询字符串。
4. 2. 3使用隐藏表单域技术
另一种传送状态信息的技术是使用隐藏表单域。表单是Web客户向Web服务器提交信息的工具。简单地说,表单就是客户可以在网页中填写信息的表格,其作用是接收用户信息并将其提交给Web服务器上特定的程序进行处理。隐藏表单域是一种特殊的表单域,其目的是在表单中添加一些对用户不可见的信息以区分同一网页上的多个表单。提交表单时,隐藏域的值一同传给表单处理程序,利用该值,可以在同一个表单处理程序中分别对不同的表单进行处理。该方法允许企业网站将一些相关的值放入网页上客户不可见的一些表单域中,一旦客户提交表单,这些值将会被送回Web服务器。
4. 3异构数据源的集成问题
从数据库研究的角度出发,Web网站上的信息可以看作一个更大、更复杂的数据库,Web上的每一个站点都是一个数据源。但是Internet上的每个数据源对数据的描述千差万别,而且这些数据信息具有一定的自我描述性和动态可变性,没有可遵循的特定模型。所以,Web网站上的每个数据源都是异构的,站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。
如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成问题。只有将这些站点的数据都集成起来,提供给客户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果不能很有效地得到所需的数据,对这些数据进行分析、集成、处理就无从谈起。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。
目前,Web站点上的数据信息一般采用HTML描述,信息只能在浏览器中提供数据的显示方式。要想在这种方式下获得数据描述,真正做到准确、高效地挖掘是不可能的,必须寻求新的解决途径。作为Internet上数据表示和数据交换的新标准,XML突破了HTML固定标记集合的约束,可自行定义各种标记描述数据元素和属性,能够反映一定的数据含义,组成一个完整的信息体系,从而获得更大的灵活性和更强的功能。由于XML能够使不同来源的结构化数据很容易地结合,使搜索多样不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望和机会。
4. 4半结构化的数据处理问题
Web上的数据与传统数据库中的数据不同,传统数据库中的数据结构性很强,即其中的数据是完全结构化的数据,都有一定的数据模型(比如关系模型),可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计。虽然Web上的数据具有一定的结构性,但因自述层次的存在,因而还是一种非完全结构化的数据,也被称为半结构化数据。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。
针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。此外,还需要一种半结构化模型抽取技术,即自动从现有数据中抽取半结构化模型的技术。所以,面向Web的数据挖掘必须以半结构化数据模型和半结构化数据模型抽取技术为前提。
面向Web的数据挖掘是一项复杂的技术,近年来,XML及其相关技术的迅速发展为半结构化数据的处理提供了很好的解决方法。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据挖掘将会变得非常轻松和有效。
5 结束语
随着社会信息化程度的提高,利用CRM系统进行客户管理,已成为企业提升自身竞争力的重要选择。越来越多的企业认为,能否建立一个高效的CRM系统,已成为增强客户忠诚度、提升自身核心竞争力的关键。而Web数据挖掘技术的迅速发展也为CRM的实施提供了良好的基础平台和技术支撑,该项技术的运用将会增强企业的开发、创新和营销能力,推动企业的整体信息化建设。
主要参考文献
[1] 曼丽春,朱宏,杨全胜. Web数据挖掘研究与探讨[J]. 现代电子技术,2005,28(8):3-6.
[2] 何月顺,丁秋林. 计算机半结构化数据源的数据挖掘技术研究[J]. 哈尔滨工业大学学报,2005,37(10):1363-1369.
[3] 周琪锋. 基于Web的数据挖掘技术的研究[J]. 电脑知识与技术,2007(1):97-103.
[4] 戴艳红,贺红燕. 数据挖掘技术在客户关系管理中的应用研究[J]. 商场现代化,2006(34):240-241.
[5] 陆楠,周春光. Web数据挖掘中异构数据集成问题的研究[J]. 深圳大学学报:理工版,2002,19(3):31-36.
[6] 王晓雪. CRM的理论分析[J]. 苏州市职业大学学报,2004(1):36-38.