论文部分内容阅读
摘 要: 随着Web技术的日渐成熟,使基于这一技术的Internet应用以惊人的速度向社会生活的方方面面渗透。Internet的应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。以Web服务器日志为例某些Web热点的日志数据正以每天数十兆的速度增长从这些大量数据中发现有用的重要的知识包括模式规则可视化结构等是数据挖掘与知识发现的又一重要研究和应用领域。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述。
关键词:Web挖掘 ; 文本挖掘;用户模式挖掘
一、 引言
随着Internet/Intranet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富,如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。
Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构。它有统一的格式,其中的数据为完全结构化的数据。Web上的信息则不然,主要是些大量的异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化。由于半结构化和非结构化的信息不能清楚地用数据模型来表示,因此在Web上的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。文章将对Web挖掘技术做系统性的研究和探讨,并在此基础上介绍一些用于Web挖掘的工具。
二、 Web挖掘概念
Web挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。它是一项综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。
通常人们往往将Web挖掘与Web上的信息检索或信息抽取等同起来,其实,它们之间是有区别的,主要体现在:(1)网络信息检索系统只能处理以关键词形式表示的简单目标,无法处理用户给出的样本形式式的复杂模糊目标,而挖掘系统则能够从文本中提取出目标信息的特征,然后根据目标特征在网络中进行有目的的搜寻,将搜寻到的文档提交给用户。(2)信息检索目的是针对某一特定领域进行信息或文档的收集,可以看作是用于Web挖掘中文档分类的一种情况。(3)不是所有的信息检索都要用到数据挖掘技术,因此信息检索通常不能发现隐藏在数据后面的联系,而Web挖掘的目的就是将大量看似无关的数据关联起来发现其中的规则和知识以供决策支持。尽管Web挖掘不同于信息检索,但它们在实现技术上却有很多相似之处,所以Web挖掘技术可以借鉴信息搜索技术。
Web挖掘可分为三类:内容挖掘、结构挖掘、用户访问模式挖掘,而Web信息挖掘和用户访问模式挖掘是Web挖掘的两个主要方面。文章就这两个主要方面进行论述。
2.1 Web内容挖掘。
Web的内容挖掘可以说是将数据挖掘技术在网络信息处理中的应用,不同于传统的数据挖掘技术,Web挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据、图形图象数据等多种数据相融合的多媒体数据挖掘。又可将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。数据库方法和数据仓库都是采用数据抽取和转换的方法后就可以采用数据库挖掘技术进行信息挖掘。
2.2 用户模式挖掘
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。这是一种完全不同于上述所讲的资源发现的任务。它是对现代电子商务战略的一个重要支持。面向Web用户访问模式的挖掘是关于用户行为及潜在顾客信息的发现,包括三种模式,即数据预处理、模式发现及模式分析。在此,数据挖掘的主要任务是从数据中发现模式。通常实现方法是对Server Logs、Error Logs和Cookie Logs等日志文件的分析挖掘出用户访问行为、频度和内容等信息,从而找出一定的模式和规则。
理解Web上的用户访问模式有如下好处:合理建造网站及合理设计服务器,如辅助改进分布式网络系统的设计性能,在有高度相关的站点间提供快速有效的访问通道;帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣,这样的知识将有助于商家制定促销策略。
三 Web挖掘技术研究
Web挖掘从数据挖掘发展而来,数据挖掘方法通常可分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、遗传算法等。
3.1Web内容挖掘实现技术
Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。Web文档多为HTML、 XML等自然语言,因此可以利用Web文档中的标记,如< Heading>等额外信息利用这些信息来提高Web文本挖掘的性能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。
文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。
文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器'Classifier')。分类器一般分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。
文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
关联规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。关联规则的定义为:若X、 Y为项目集且X∩Y=Φ,蕴涵式X Y称为关联规则,X、Y分别称为关联规则XY的前提和结果。项目集(X∪Y)的支持率称为关联规则XY的支持率,定义为:
support(XY)=support(X∪Y)
关联规则XY的置信度定义为:
confidence(XY)= 100%
支持率和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。通常用户只对支持率和置信度均高的关联规则感兴趣,也只有支持率和置信度均高的关联规则才是有用的关联规则。发现关联规则通常要经过以下三个步骤:
(1)连接数据,作数据准备;
(2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;
(3)可视化显示、理解、评估关联规则。
3.2 用户模式挖掘实现技术
用户访问模式又可称为用户导航信息。在Web的用户访问模式的挖掘中,描述用户访问模式的数据包括:IP地址、参考页面、访问日期和时间、用户的Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
常用的有两种方法发现用户导航信息:
(一) 通过对日志文件进行分析。
1、访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据。
2、对日志数据进行直接访问以获取用户的导航信息。
(二) 通过对用户点击事件的搜集和分析发现用户导航行为。
用户导航信息的挖掘通常要经过下面三个步骤:
1、数据预处理阶段。这是用户导航信息挖掘最关键的阶段数据预处理包括:关于用户导航信息的预处理,关于内容预处理和结构的预处理;
2、模式识别阶段该。阶段采用的方法包括:统计法、机器学习和模式识别等方法。实现算法可以是:统计、分析、聚类、分类、关联规则、序列模式识别等。
3、模式分析阶段。该阶段的任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式。具体的实现方法要依具体采用的Web挖掘技术而定,通常采用的方法有两种:一种采用SQL查询语句进行分析,另外一种将数据导入多维数据立方体中,而后利用OLAP工具进行分析并提供可视化的结果输出。
关键词:Web挖掘 ; 文本挖掘;用户模式挖掘
一、 引言
随着Internet/Intranet技术的发展,尤其是Web的全球普及,使得Web上信息量无比丰富,如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。
Web上的数据信息不同于数据库。数据库有规范的结构,如关系数据库的二维表结构。它有统一的格式,其中的数据为完全结构化的数据。Web上的信息则不然,主要是些大量的异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化。由于半结构化和非结构化的信息不能清楚地用数据模型来表示,因此在Web上的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。文章将对Web挖掘技术做系统性的研究和探讨,并在此基础上介绍一些用于Web挖掘的工具。
二、 Web挖掘概念
Web挖掘是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。它是一项综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。
通常人们往往将Web挖掘与Web上的信息检索或信息抽取等同起来,其实,它们之间是有区别的,主要体现在:(1)网络信息检索系统只能处理以关键词形式表示的简单目标,无法处理用户给出的样本形式式的复杂模糊目标,而挖掘系统则能够从文本中提取出目标信息的特征,然后根据目标特征在网络中进行有目的的搜寻,将搜寻到的文档提交给用户。(2)信息检索目的是针对某一特定领域进行信息或文档的收集,可以看作是用于Web挖掘中文档分类的一种情况。(3)不是所有的信息检索都要用到数据挖掘技术,因此信息检索通常不能发现隐藏在数据后面的联系,而Web挖掘的目的就是将大量看似无关的数据关联起来发现其中的规则和知识以供决策支持。尽管Web挖掘不同于信息检索,但它们在实现技术上却有很多相似之处,所以Web挖掘技术可以借鉴信息搜索技术。
Web挖掘可分为三类:内容挖掘、结构挖掘、用户访问模式挖掘,而Web信息挖掘和用户访问模式挖掘是Web挖掘的两个主要方面。文章就这两个主要方面进行论述。
2.1 Web内容挖掘。
Web的内容挖掘可以说是将数据挖掘技术在网络信息处理中的应用,不同于传统的数据挖掘技术,Web挖掘主要是针对各种非结构化的数据,如文本数据、音频数据、视频数据、图形图象数据等多种数据相融合的多媒体数据挖掘。又可将其分为基于文本的挖掘和基于多媒体的挖掘两种。基于文本的Web挖掘方法有数据库方法,建立Web数据仓库方法和新近的基于软件Agent的分类器方法、基于概念的文本信息挖掘法。Web多媒体的信息挖掘通常采用的方法为关联规则法和特征提取法。数据库方法和数据仓库都是采用数据抽取和转换的方法后就可以采用数据库挖掘技术进行信息挖掘。
2.2 用户模式挖掘
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。这是一种完全不同于上述所讲的资源发现的任务。它是对现代电子商务战略的一个重要支持。面向Web用户访问模式的挖掘是关于用户行为及潜在顾客信息的发现,包括三种模式,即数据预处理、模式发现及模式分析。在此,数据挖掘的主要任务是从数据中发现模式。通常实现方法是对Server Logs、Error Logs和Cookie Logs等日志文件的分析挖掘出用户访问行为、频度和内容等信息,从而找出一定的模式和规则。
理解Web上的用户访问模式有如下好处:合理建造网站及合理设计服务器,如辅助改进分布式网络系统的设计性能,在有高度相关的站点间提供快速有效的访问通道;帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣,这样的知识将有助于商家制定促销策略。
三 Web挖掘技术研究
Web挖掘从数据挖掘发展而来,数据挖掘方法通常可分为两类,一类是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、遗传算法等。
3.1Web内容挖掘实现技术
Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。Web文档多为HTML、 XML等自然语言,因此可以利用Web文档中的标记,如
文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。
文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器'Classifier')。分类器一般分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。
分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。
文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。
关联规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。关联规则的定义为:若X、 Y为项目集且X∩Y=Φ,蕴涵式X Y称为关联规则,X、Y分别称为关联规则XY的前提和结果。项目集(X∪Y)的支持率称为关联规则XY的支持率,定义为:
support(XY)=support(X∪Y)
关联规则XY的置信度定义为:
confidence(XY)= 100%
支持率和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。通常用户只对支持率和置信度均高的关联规则感兴趣,也只有支持率和置信度均高的关联规则才是有用的关联规则。发现关联规则通常要经过以下三个步骤:
(1)连接数据,作数据准备;
(2)给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;
(3)可视化显示、理解、评估关联规则。
3.2 用户模式挖掘实现技术
用户访问模式又可称为用户导航信息。在Web的用户访问模式的挖掘中,描述用户访问模式的数据包括:IP地址、参考页面、访问日期和时间、用户的Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
常用的有两种方法发现用户导航信息:
(一) 通过对日志文件进行分析。
1、访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据。
2、对日志数据进行直接访问以获取用户的导航信息。
(二) 通过对用户点击事件的搜集和分析发现用户导航行为。
用户导航信息的挖掘通常要经过下面三个步骤:
1、数据预处理阶段。这是用户导航信息挖掘最关键的阶段数据预处理包括:关于用户导航信息的预处理,关于内容预处理和结构的预处理;
2、模式识别阶段该。阶段采用的方法包括:统计法、机器学习和模式识别等方法。实现算法可以是:统计、分析、聚类、分类、关联规则、序列模式识别等。
3、模式分析阶段。该阶段的任务是从上一阶段收集的数据集中过滤掉不感兴趣和无关联的数据及模式。具体的实现方法要依具体采用的Web挖掘技术而定,通常采用的方法有两种:一种采用SQL查询语句进行分析,另外一种将数据导入多维数据立方体中,而后利用OLAP工具进行分析并提供可视化的结果输出。