论文部分内容阅读
摘 要:本文首先对当前主要的Web挖掘技术和高校档案馆用户兴趣建模技术进行了分析,提出了以高校档案馆用户在高校档案馆网站浏览内容分析为主,浏览行为分析为辅的高校档案馆用户兴趣挖掘过程模型。而基于Web浏览内容挖掘所得到的用户兴趣模型能较准确地描述用户的兴趣。
关键词:用户兴趣模型 Web挖掘 个性化服务 档案馆
中图分类号:TP311.13 文献标识码:A 文章编号:1673-8454(2008)19-0017-03
互联网以惊人的速度迅猛发展,使得设计与维护Web站点的工作变得尤为重要。摆在高校档案馆管理人员面前的新课题是如何管理高校档案馆网站上的大量信息,以满足高校档案馆用户不断增长的个性化的信息需求。所谓个性化服务是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。
一、WEB挖掘
1.Web数据挖掘概述
Web数据挖掘,简称Web挖掘,是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、统计学、计算机网络、数据库与数据仓库、可视化、信息科学等众多领域的一项综合技术。Web数据挖掘是指在互联网上挖掘有趣的、潜在的、蕴藏的信息以及有用的模式的过程。Web挖掘不同于数据挖掘,主要区别在于数据挖掘面对的是结构规范化的数据库,而Web资源是异构的,多为半结构化或非结构化的文档、图形、图像、声音等。
2.Web挖掘的分类
Web信息的多样性决定了Web挖掘的多样性。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web 结构挖掘、Web 使用记录挖掘。Web挖掘详细分类如图1所示。
Web个性化服务系统的一般步骤是:(1)收集用户的各种信息,如注册信息、访问历史等;(2)分析用户数据,创建符合用户特性的访问模式;(3)结合用户特性,向用户提供符合其特殊需求的个性化服务。用户对系统提供的服务做出反馈信息,系统根据反馈信息调整服务。通过用户与系统之间循环反复的交互,系统最终能够为用户提供个性化服务。从上面的分析可以看出,通过分析用户的各种信息建立用户访问模式是建立个性化系统的关键。Web挖掘是实现用户建模的基本要求。
3.目前Web个性化服务系统的研究现状
目前已经出现了多个应用Web挖掘技术创建的Web个性化服务系统。这些系统应用的Web挖掘类型包括使用挖掘、内容挖掘和结构挖掘;收集数据的方式有三种,即从客户端、代理或服务器得到原始数据。最后提供的服务有两类,即过虑服务和导航服务。
实现个性化服务的关键,就是对Web用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行准确地协作推荐。
准确地描述用户的兴趣主要包括两个方面:(1)从用户浏览信息中准确地挖掘出隐含的用户兴趣信息;(2)采用准确的表示方法来表示用户兴趣。在预先不知道用户兴趣类型的情况下,一般采用聚类算法对用户的浏览信息进行分析。有了聚类结果,怎样来表示用户的兴趣又是另一个重要方面,该表示方法应该满足准确、易于理解和易于更新的要求。
三、高校档案馆用户兴趣挖掘的建模过程概述
Web挖掘是数据挖掘方法在Web环境下的应用,它从数据挖掘发展而来。Web挖掘与传统的数据挖掘相比有许多独特之处。首先,Web挖掘的对象是海量、异构、分布的Web文档数据。通常认为以Web作为中间件对数据库进行挖掘,以及对Web服务器上的日志、用户信息等数据展开的挖掘工作,仍属于传统数据挖掘的范畴。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适合于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。
由于档案信息数据的特殊性,基于高校档案馆用户浏览页面内容的挖掘有别于一般的数据挖掘。通过采集用户浏览历史信息数据,然后对这些文本数据进行预处理,得到文本的向量空间模型表示,在此基础上可以对文本进行相似度计算并用于聚类分析。有了文本的基于不同主题的正确分类后,最后分析高校档案馆用户每一兴趣子类的权值,并采用二层树状结构模型来表示用户的兴趣。这就是整个高校档案馆用户兴趣挖掘过程模型,如图3所示。
从图3中可以看出,整个高校档案馆用户兴趣挖掘过程都不需要用户的参与,是完全的隐式创建。系统自动获取用户的浏览信息,经过分析处理后输出用户的兴趣模型。将所得的用户兴趣模型应用于个性化系统推荐服务中,根据用户的反馈信息可以对模型进行更新,符合高校档案馆用户兴趣动态变化的要求。
1.元数据获取
用于Web数据挖掘的数据很多,包括日志信息、用户行为数据、页面超链接信息、页面内容数据、用户注册信息、站点拓扑结构信息等,这些数据一般可以从高校档案馆的服务器端、客户端、代理服务器端获得。服务器端所提供的数据记录了所有高校档案馆用户访问服务器的详细资料;代理服务器记录了多个高校档案馆用户在多个Web站点间的浏览行为;而客户端数据则很直接地反映了某个个体的单一的浏览行为。所以三个不同的数据源分别反映了不同的研究对象群体。在获得用于数据挖掘的元数据后,将它们进行整理并以适当的格式进行保存,供聚类分析和用户兴趣模型建立使用。
本文中用于高校档案馆用户兴趣挖掘的元数据主要是用户浏览页面的内容信息,它被用于基于内容的聚类分析。这些页面的内容信息主要来源于Web服务器端,首先根据用户的浏览日志记录,得到单一用户的浏览历史页面URL,然后从数据库服务器中取出这些URL对应的Web页面另存于该用户的浏览页面文件夹中。
2.数据预处理
与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构。即使具有一些结构,也是着重于格式而非文档内容。不同类型文档的结构也不一致。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。
Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存作为文档的中间表示形式。文本特征指的是关于文本的元数据,分为描述性特征和语义性特征。描述性特征诸如文本的名称、日期、大小、类型等易于获得,而语义性特征较难得到,包括文本的作者、机构、标题、内容等。W3C近来制定的XML、RDF等规范提供了对Web文档资源进行描述的语言和框架。在此基础上,可以从半结构化的Web文档中抽取作者、机构等语义性特征。
3.文本聚类分析
对Web页面文本进行预处理后,得到文本的特征表示。基于这些结构化表示的数据,就可以采用现有的 Web知识发现方法进行知识挖掘,常用的方法有聚类、关联分析等。
文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个类别,它是一种监督学习,对一系列训练样本的分析来预测未知页面的类别归属。与文本分类不同,文本聚类没有预先定义好的主题类别,它是一种无监督学习方法。它的目标是将文档集分为若干类,要求同一类内文档内容的相似度尽可能大,而不同类间相似度尽可能小。基于用户浏览内容来挖掘用户的兴趣是在预先不知道高校档案馆用户兴趣类型的基础之上进行的,所以采用聚类分析方法更适合。整个聚类分析以文本特征表示的页面集为输入,经过聚类后输出表示高校档案馆用户不同兴趣类型的多个兴趣页面集合,每一集合内的页面都与某一特定的主题类别相关。
4.高校档案馆用户兴趣建模
在利用正确的聚类分析方法得到准确性较好的用户兴趣类页面簇后,怎样准确地表示用户兴趣就成了整个用户兴趣挖掘的关键所在。
对高校档案馆网站访问者个人特性爱好的了解是 Web站点提供高效的个性化服务的重要手段。由于网站的设计者和管理者无法直接了解用户的特性,所以我们采用一种根据每个用户的浏览行为为用户兴趣建模的手段提供个性化服务。
用户兴趣建模(Modeling User Interests)是指根据访问者对一个Web站点上Web页面的访问情况,可以模型化用户的自身特性和兴趣爱好。在识别出用户的特性后就可以开展有针对性的个性化服务。用户兴趣建模的主要目的是识别用户的信念、目标和计划,以提供个性化的服务。用户兴趣建模的步骤一般包括以下几个:
(1)定义数据结构以满足系统需要;
(2)识别当前用户;
(3)加载当前的用户模型,如果不存在这样的模型就按照缺省方式新建一个;
(4)在用户与系统交互的基础上更新模型。
通常,用户兴趣建模主要有三种途径:
(1)推断匿名访问者的人口统计特性
由于Web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。例如,可以根据已知访问者的统计特性(如:性别、年龄、收入、教育程度等)和对页面的访问内容来推断未知用户的人口统计特性。在得到访问者的人口统计特性后就可以提供个性化的、有针对性的服务。
(2)在不需要用户参与的情况下,得到用户兴趣描述文件
用户兴趣描述文件用于描述用户的基本兴趣特性。要想使Web站点自适应和个性化,一条重要的途径就是了解用户的基本特性,这样才能开展有针对的服务。在前面已经讨论到,用户兴趣描述文件就像一个人在某个Web站点的身份证,它唯一标识了该用户。
(3)根据高校档案馆用户的访问模式来得到用户群体兴趣
基于高校档案馆用户的公共访问特性而进行用户聚类,是Web访问信息挖掘的一个重要方面。用户的访问特性由用户的访问日志得到,聚类的结果可以被用于分类用户或给高校档案馆网站管理者提供参考价值。
四、总结与展望
高校档案馆个性化Web服务通过收集和分析高校档案馆用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的档案信息访问者。实现高校档案馆个性化服务的关键就是对高校档案馆用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行协作推荐。?筅
参考文献:
[1]吉根林,孙志挥.Web挖掘技术研究[J].计算机工程, 2002 Vol.28 No.10 16-17.
[3]Magdalini Eirinaki,Michalis VazirgiannisWeb Mining for Web Personalization, ACM Transactions on Internet Technology,Vol.3,No.1,February 2003,Pages 1-27.
[4]史忠植著.知识发现[M].北京:清华大学出版社,2002.
[5]冯是聪,单松巍著.基于Web 挖掘的个性化技术研究[J].计算机工程与设计,Vol.25 No.1
关键词:用户兴趣模型 Web挖掘 个性化服务 档案馆
中图分类号:TP311.13 文献标识码:A 文章编号:1673-8454(2008)19-0017-03
互联网以惊人的速度迅猛发展,使得设计与维护Web站点的工作变得尤为重要。摆在高校档案馆管理人员面前的新课题是如何管理高校档案馆网站上的大量信息,以满足高校档案馆用户不断增长的个性化的信息需求。所谓个性化服务是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。
一、WEB挖掘
1.Web数据挖掘概述
Web数据挖掘,简称Web挖掘,是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、统计学、计算机网络、数据库与数据仓库、可视化、信息科学等众多领域的一项综合技术。Web数据挖掘是指在互联网上挖掘有趣的、潜在的、蕴藏的信息以及有用的模式的过程。Web挖掘不同于数据挖掘,主要区别在于数据挖掘面对的是结构规范化的数据库,而Web资源是异构的,多为半结构化或非结构化的文档、图形、图像、声音等。
2.Web挖掘的分类
Web信息的多样性决定了Web挖掘的多样性。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web 结构挖掘、Web 使用记录挖掘。Web挖掘详细分类如图1所示。
Web个性化服务系统的一般步骤是:(1)收集用户的各种信息,如注册信息、访问历史等;(2)分析用户数据,创建符合用户特性的访问模式;(3)结合用户特性,向用户提供符合其特殊需求的个性化服务。用户对系统提供的服务做出反馈信息,系统根据反馈信息调整服务。通过用户与系统之间循环反复的交互,系统最终能够为用户提供个性化服务。从上面的分析可以看出,通过分析用户的各种信息建立用户访问模式是建立个性化系统的关键。Web挖掘是实现用户建模的基本要求。
3.目前Web个性化服务系统的研究现状
目前已经出现了多个应用Web挖掘技术创建的Web个性化服务系统。这些系统应用的Web挖掘类型包括使用挖掘、内容挖掘和结构挖掘;收集数据的方式有三种,即从客户端、代理或服务器得到原始数据。最后提供的服务有两类,即过虑服务和导航服务。
实现个性化服务的关键,就是对Web用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行准确地协作推荐。
准确地描述用户的兴趣主要包括两个方面:(1)从用户浏览信息中准确地挖掘出隐含的用户兴趣信息;(2)采用准确的表示方法来表示用户兴趣。在预先不知道用户兴趣类型的情况下,一般采用聚类算法对用户的浏览信息进行分析。有了聚类结果,怎样来表示用户的兴趣又是另一个重要方面,该表示方法应该满足准确、易于理解和易于更新的要求。
三、高校档案馆用户兴趣挖掘的建模过程概述
Web挖掘是数据挖掘方法在Web环境下的应用,它从数据挖掘发展而来。Web挖掘与传统的数据挖掘相比有许多独特之处。首先,Web挖掘的对象是海量、异构、分布的Web文档数据。通常认为以Web作为中间件对数据库进行挖掘,以及对Web服务器上的日志、用户信息等数据展开的挖掘工作,仍属于传统数据挖掘的范畴。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适合于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。
由于档案信息数据的特殊性,基于高校档案馆用户浏览页面内容的挖掘有别于一般的数据挖掘。通过采集用户浏览历史信息数据,然后对这些文本数据进行预处理,得到文本的向量空间模型表示,在此基础上可以对文本进行相似度计算并用于聚类分析。有了文本的基于不同主题的正确分类后,最后分析高校档案馆用户每一兴趣子类的权值,并采用二层树状结构模型来表示用户的兴趣。这就是整个高校档案馆用户兴趣挖掘过程模型,如图3所示。
从图3中可以看出,整个高校档案馆用户兴趣挖掘过程都不需要用户的参与,是完全的隐式创建。系统自动获取用户的浏览信息,经过分析处理后输出用户的兴趣模型。将所得的用户兴趣模型应用于个性化系统推荐服务中,根据用户的反馈信息可以对模型进行更新,符合高校档案馆用户兴趣动态变化的要求。
1.元数据获取
用于Web数据挖掘的数据很多,包括日志信息、用户行为数据、页面超链接信息、页面内容数据、用户注册信息、站点拓扑结构信息等,这些数据一般可以从高校档案馆的服务器端、客户端、代理服务器端获得。服务器端所提供的数据记录了所有高校档案馆用户访问服务器的详细资料;代理服务器记录了多个高校档案馆用户在多个Web站点间的浏览行为;而客户端数据则很直接地反映了某个个体的单一的浏览行为。所以三个不同的数据源分别反映了不同的研究对象群体。在获得用于数据挖掘的元数据后,将它们进行整理并以适当的格式进行保存,供聚类分析和用户兴趣模型建立使用。
本文中用于高校档案馆用户兴趣挖掘的元数据主要是用户浏览页面的内容信息,它被用于基于内容的聚类分析。这些页面的内容信息主要来源于Web服务器端,首先根据用户的浏览日志记录,得到单一用户的浏览历史页面URL,然后从数据库服务器中取出这些URL对应的Web页面另存于该用户的浏览页面文件夹中。
2.数据预处理
与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构。即使具有一些结构,也是着重于格式而非文档内容。不同类型文档的结构也不一致。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。
Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存作为文档的中间表示形式。文本特征指的是关于文本的元数据,分为描述性特征和语义性特征。描述性特征诸如文本的名称、日期、大小、类型等易于获得,而语义性特征较难得到,包括文本的作者、机构、标题、内容等。W3C近来制定的XML、RDF等规范提供了对Web文档资源进行描述的语言和框架。在此基础上,可以从半结构化的Web文档中抽取作者、机构等语义性特征。
3.文本聚类分析
对Web页面文本进行预处理后,得到文本的特征表示。基于这些结构化表示的数据,就可以采用现有的 Web知识发现方法进行知识挖掘,常用的方法有聚类、关联分析等。
文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个类别,它是一种监督学习,对一系列训练样本的分析来预测未知页面的类别归属。与文本分类不同,文本聚类没有预先定义好的主题类别,它是一种无监督学习方法。它的目标是将文档集分为若干类,要求同一类内文档内容的相似度尽可能大,而不同类间相似度尽可能小。基于用户浏览内容来挖掘用户的兴趣是在预先不知道高校档案馆用户兴趣类型的基础之上进行的,所以采用聚类分析方法更适合。整个聚类分析以文本特征表示的页面集为输入,经过聚类后输出表示高校档案馆用户不同兴趣类型的多个兴趣页面集合,每一集合内的页面都与某一特定的主题类别相关。
4.高校档案馆用户兴趣建模
在利用正确的聚类分析方法得到准确性较好的用户兴趣类页面簇后,怎样准确地表示用户兴趣就成了整个用户兴趣挖掘的关键所在。
对高校档案馆网站访问者个人特性爱好的了解是 Web站点提供高效的个性化服务的重要手段。由于网站的设计者和管理者无法直接了解用户的特性,所以我们采用一种根据每个用户的浏览行为为用户兴趣建模的手段提供个性化服务。
用户兴趣建模(Modeling User Interests)是指根据访问者对一个Web站点上Web页面的访问情况,可以模型化用户的自身特性和兴趣爱好。在识别出用户的特性后就可以开展有针对性的个性化服务。用户兴趣建模的主要目的是识别用户的信念、目标和计划,以提供个性化的服务。用户兴趣建模的步骤一般包括以下几个:
(1)定义数据结构以满足系统需要;
(2)识别当前用户;
(3)加载当前的用户模型,如果不存在这样的模型就按照缺省方式新建一个;
(4)在用户与系统交互的基础上更新模型。
通常,用户兴趣建模主要有三种途径:
(1)推断匿名访问者的人口统计特性
由于Web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。例如,可以根据已知访问者的统计特性(如:性别、年龄、收入、教育程度等)和对页面的访问内容来推断未知用户的人口统计特性。在得到访问者的人口统计特性后就可以提供个性化的、有针对性的服务。
(2)在不需要用户参与的情况下,得到用户兴趣描述文件
用户兴趣描述文件用于描述用户的基本兴趣特性。要想使Web站点自适应和个性化,一条重要的途径就是了解用户的基本特性,这样才能开展有针对的服务。在前面已经讨论到,用户兴趣描述文件就像一个人在某个Web站点的身份证,它唯一标识了该用户。
(3)根据高校档案馆用户的访问模式来得到用户群体兴趣
基于高校档案馆用户的公共访问特性而进行用户聚类,是Web访问信息挖掘的一个重要方面。用户的访问特性由用户的访问日志得到,聚类的结果可以被用于分类用户或给高校档案馆网站管理者提供参考价值。
四、总结与展望
高校档案馆个性化Web服务通过收集和分析高校档案馆用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的档案信息访问者。实现高校档案馆个性化服务的关键就是对高校档案馆用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行协作推荐。?筅
参考文献:
[1]吉根林,孙志挥.Web挖掘技术研究[J].计算机工程, 2002 Vol.28 No.10 16-17.
[3]Magdalini Eirinaki,Michalis VazirgiannisWeb Mining for Web Personalization, ACM Transactions on Internet Technology,Vol.3,No.1,February 2003,Pages 1-27.
[4]史忠植著.知识发现[M].北京:清华大学出版社,2002.
[5]冯是聪,单松巍著.基于Web 挖掘的个性化技术研究[J].计算机工程与设计,Vol.25 No.1