论文部分内容阅读
摘要:Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。
关键词:Web日志挖掘,商务信息网站,数据
1.Web日志挖掘的概念
Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问信息发现。web日志挖掘是关于用户行为及潜在顾客信息的发现,一般包括三个阶段,即数据预处理、模式识别及模式分析。
2.Web日志挖掘的过程
Web日志挖掘通过分析和研究Web日志记录中的规律,识别电子商务的潜在用户,提高对最终用户信息服务的质量并改进Web服务系统的性能和结构。
2.1数据预处理
Web日志文件记录中存储的是用户访问站点信息的原始记录,直接在这些数据上面进行挖掘是比较困难的,在使用算法或工具对其进行分析之前,必须进行预处理。预处理过程是Web日志挖掘质量保证的关键,因为处理后的数据好坏、全面与否,直接影响到数据挖掘的结果,进而对网站决策者的决策造成直接影响。特别是中小型电子商务网站,其数据相对较少,因此数据处理的准确性极为重要。Web日志预处理主要有4个步骤:数据净化、用户识别、会话识别和数据合并。
Web日志文件中包含一些不能反映用户行为的记录,数据净化就是去掉这些记录。而用户识别的目的是对用户的唯一性的识别。在通常情况下,只有通过分析日志文件中的IP地址、agent等信息来识别不同的用户。会话识别是建立在对用户识别的基础上的,其目的是将用户的访问记录分为单个会话。同时,对于网站上繁杂的页面,由于数量较多,而且有许多网页的内容有一定的联系或相似之处,所以可以对其进行一定程度的合并,从而将其分成能反映网站逻辑信息的同质类别。特别是中小型电子商务网站的网页,由于网站设计人员的知识架构、技术层次以及对所要设计的网站内容的了解程度的限制,很难建立一个完全无重复内容网页和完全反映网站逻辑信息的网站。
2.2模式发现
模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等。
2.3模式分析
模式分析是Web日志挖掘中的最后一项重要的步骤,主要是为了在模式发现算法找到的模式集合中发现有趣(有用)的模式。对于一个商务信息系统,通过模式发现与模式分析,可以得到详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和网页内容,对网站进行优化,从而延长用户的驻留时间,挽留老用户、吸引新州户,并增加用户的购买率,以此獲得电子商务网站的成功运行;而通过对内部管理系统用户的聚类,可以明确网站运营的缺陷在哪里,还有何可以改进的地方。
3.Web日志挖掘技术在商务信息系统中的构建
3.1建立个性化的网站模型
(1)用户可以通过注册后访问网站,也可以不通过注册直接访问;(2)针对不同的用户,网站提供不同的服务;(3)根据用户的访问记录信息,动态调整网站的页面,产生的个性化的网站使得用户可以更容易地到达他所需服务的数据网页;(4)挖掘用户的Web访问日志,在用户定制区内预测并推荐用户的潜在访问网页链接。
3.2个性化网站系统的框架
系统主要由4个功能模块组成,分别为用户识别模块,行为记录模块,兴趣识别模块和个性推荐模块。各个模块的说明如下。
(1)用户识别模块。用户识别模块处理用户的基本信息并识别用户。包括用户的登录名(注册用户有自己唯一对应的name;非注册用户有一个共同的name,但有不同的Cookie值);用户登录密码;用户注册个人信息时填入的喜好;以及为了更加准确地识别用户而获取的关于用户身份的其他一些基本信息,如MAC地址、IP地址、浏览器版本号和操作系统版本号等。用户登录后通过用户名或Cookie值为每个用户分配UserID,以方便其他模块进一步地调整网站的页面以及在用户定制区内推荐该用户可能访问的链接。
(2)行为记录模块。用户的访问(行为记录)日志是系统进行用户个性化特征分析的数据依据和数据基础。访问日志模块处理用户行为记录的各项信息,包括用户访问某一页面的时间以及在该页面停留的时间,访问某一页面的次数,用户访问网站的某页面的URL地址,为其他相关模块提供用户信息,以及对大量数据保存方面的管理配置。
(3)兴趣识别模块。一个网站由众多网页构成的结点组成,结点之间的联系是通过页面的链接来实现的。一些大型门户网站首页,大量的链接让人跟花缭乱。在这类网站上让用户填写兴趣表单只会考验用户的耐心。因此根据用户在网站中各页面的停留时间和访问次数等特征,结合用户参与、识别、建立、调整该用户的喜好,可以避免用户填写一系列繁琐的表单操作。
兴趣的识别模块将根据访问日志模块所给出的各个用户不同信息计算得到该用户的兴趣强度,并且把识别的结果存储在用户兴趣分类中,以便为页面显示提供数据源。
(4)个性推荐模块。个性推荐模块的功能包括兴趣回顾和兴趣推荐,根据用户过去的行为预测用户的将来行为。网站的用户在登录以后,个性推荐模块根据用户的UserlD查找用户兴趣库中该用户的历史兴趣,利用个性化推荐进行兴趣推荐。系统针对用户的不同兴趣提供相应的服务。在页面主显示区和用户定制区分别显示相应的内容。免去用户多次点击链接的麻烦,使用户的访问更加有效率。
4.结束语
Web日志挖掘技术为商务信息网站构建的合理性分析以及相关电子商务信息系统建设提供了重要的科学指导。实践证明,通过对Web日志进行预处理,清理、过滤以及重新组合不规范的记录,并将Web日志中的数据转换为挖掘算法可识别的形式来挖掘关联规则,并对用户进行聚类和分类,能够找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,发现用户访问Web页面的模式,从而改进Web站点的性能和组织结构,提高用户查找信息的质量和效率。
参考文献
[1] 陈京民.数据仓库与数据挖掘技术(第2版)[M].电子工业出版社,2007.
[2] Dunham Margaret H.数据挖掘教程.清华大学出版社,2005.
[3] 梁循.数据挖掘算法与应用.北京大学出版社,2006.
[4] 戴永群.web挖掘研究与应用.计算机与信息技术,2007.
[5] 丁瑾.基于Web数据挖掘的综述.科技开发情报与经济,2004
关键词:Web日志挖掘,商务信息网站,数据
1.Web日志挖掘的概念
Web日志挖掘,是Web使用挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问信息发现。web日志挖掘是关于用户行为及潜在顾客信息的发现,一般包括三个阶段,即数据预处理、模式识别及模式分析。
2.Web日志挖掘的过程
Web日志挖掘通过分析和研究Web日志记录中的规律,识别电子商务的潜在用户,提高对最终用户信息服务的质量并改进Web服务系统的性能和结构。
2.1数据预处理
Web日志文件记录中存储的是用户访问站点信息的原始记录,直接在这些数据上面进行挖掘是比较困难的,在使用算法或工具对其进行分析之前,必须进行预处理。预处理过程是Web日志挖掘质量保证的关键,因为处理后的数据好坏、全面与否,直接影响到数据挖掘的结果,进而对网站决策者的决策造成直接影响。特别是中小型电子商务网站,其数据相对较少,因此数据处理的准确性极为重要。Web日志预处理主要有4个步骤:数据净化、用户识别、会话识别和数据合并。
Web日志文件中包含一些不能反映用户行为的记录,数据净化就是去掉这些记录。而用户识别的目的是对用户的唯一性的识别。在通常情况下,只有通过分析日志文件中的IP地址、agent等信息来识别不同的用户。会话识别是建立在对用户识别的基础上的,其目的是将用户的访问记录分为单个会话。同时,对于网站上繁杂的页面,由于数量较多,而且有许多网页的内容有一定的联系或相似之处,所以可以对其进行一定程度的合并,从而将其分成能反映网站逻辑信息的同质类别。特别是中小型电子商务网站的网页,由于网站设计人员的知识架构、技术层次以及对所要设计的网站内容的了解程度的限制,很难建立一个完全无重复内容网页和完全反映网站逻辑信息的网站。
2.2模式发现
模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等。
2.3模式分析
模式分析是Web日志挖掘中的最后一项重要的步骤,主要是为了在模式发现算法找到的模式集合中发现有趣(有用)的模式。对于一个商务信息系统,通过模式发现与模式分析,可以得到详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和网页内容,对网站进行优化,从而延长用户的驻留时间,挽留老用户、吸引新州户,并增加用户的购买率,以此獲得电子商务网站的成功运行;而通过对内部管理系统用户的聚类,可以明确网站运营的缺陷在哪里,还有何可以改进的地方。
3.Web日志挖掘技术在商务信息系统中的构建
3.1建立个性化的网站模型
(1)用户可以通过注册后访问网站,也可以不通过注册直接访问;(2)针对不同的用户,网站提供不同的服务;(3)根据用户的访问记录信息,动态调整网站的页面,产生的个性化的网站使得用户可以更容易地到达他所需服务的数据网页;(4)挖掘用户的Web访问日志,在用户定制区内预测并推荐用户的潜在访问网页链接。
3.2个性化网站系统的框架
系统主要由4个功能模块组成,分别为用户识别模块,行为记录模块,兴趣识别模块和个性推荐模块。各个模块的说明如下。
(1)用户识别模块。用户识别模块处理用户的基本信息并识别用户。包括用户的登录名(注册用户有自己唯一对应的name;非注册用户有一个共同的name,但有不同的Cookie值);用户登录密码;用户注册个人信息时填入的喜好;以及为了更加准确地识别用户而获取的关于用户身份的其他一些基本信息,如MAC地址、IP地址、浏览器版本号和操作系统版本号等。用户登录后通过用户名或Cookie值为每个用户分配UserID,以方便其他模块进一步地调整网站的页面以及在用户定制区内推荐该用户可能访问的链接。
(2)行为记录模块。用户的访问(行为记录)日志是系统进行用户个性化特征分析的数据依据和数据基础。访问日志模块处理用户行为记录的各项信息,包括用户访问某一页面的时间以及在该页面停留的时间,访问某一页面的次数,用户访问网站的某页面的URL地址,为其他相关模块提供用户信息,以及对大量数据保存方面的管理配置。
(3)兴趣识别模块。一个网站由众多网页构成的结点组成,结点之间的联系是通过页面的链接来实现的。一些大型门户网站首页,大量的链接让人跟花缭乱。在这类网站上让用户填写兴趣表单只会考验用户的耐心。因此根据用户在网站中各页面的停留时间和访问次数等特征,结合用户参与、识别、建立、调整该用户的喜好,可以避免用户填写一系列繁琐的表单操作。
兴趣的识别模块将根据访问日志模块所给出的各个用户不同信息计算得到该用户的兴趣强度,并且把识别的结果存储在用户兴趣分类中,以便为页面显示提供数据源。
(4)个性推荐模块。个性推荐模块的功能包括兴趣回顾和兴趣推荐,根据用户过去的行为预测用户的将来行为。网站的用户在登录以后,个性推荐模块根据用户的UserlD查找用户兴趣库中该用户的历史兴趣,利用个性化推荐进行兴趣推荐。系统针对用户的不同兴趣提供相应的服务。在页面主显示区和用户定制区分别显示相应的内容。免去用户多次点击链接的麻烦,使用户的访问更加有效率。
4.结束语
Web日志挖掘技术为商务信息网站构建的合理性分析以及相关电子商务信息系统建设提供了重要的科学指导。实践证明,通过对Web日志进行预处理,清理、过滤以及重新组合不规范的记录,并将Web日志中的数据转换为挖掘算法可识别的形式来挖掘关联规则,并对用户进行聚类和分类,能够找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,发现用户访问Web页面的模式,从而改进Web站点的性能和组织结构,提高用户查找信息的质量和效率。
参考文献
[1] 陈京民.数据仓库与数据挖掘技术(第2版)[M].电子工业出版社,2007.
[2] Dunham Margaret H.数据挖掘教程.清华大学出版社,2005.
[3] 梁循.数据挖掘算法与应用.北京大学出版社,2006.
[4] 戴永群.web挖掘研究与应用.计算机与信息技术,2007.
[5] 丁瑾.基于Web数据挖掘的综述.科技开发情报与经济,2004