基于WEB挖掘的高校档案馆用户浏览行为个性化研究

来源 :中国教育信息化·高教职教 | 被引量 : 0次 | 上传用户:huninbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文首先对当前主要的Web挖掘技术和高校档案馆用户兴趣建模技术进行了分析,提出了以高校档案馆用户在高校档案馆网站浏览内容分析为主,浏览行为分析为辅的高校档案馆用户兴趣挖掘过程模型。而基于Web浏览内容挖掘所得到的用户兴趣模型能较准确地描述用户的兴趣。
  关键词:用户兴趣模型 Web挖掘 个性化服务 档案馆
  中图分类号:TP311.13 文献标识码:A 文章编号:1673-8454(2008)19-0017-03
  
  互联网以惊人的速度迅猛发展,使得设计与维护Web站点的工作变得尤为重要。摆在高校档案馆管理人员面前的新课题是如何管理高校档案馆网站上的大量信息,以满足高校档案馆用户不断增长的个性化的信息需求。所谓个性化服务是指对不同的用户采取不同的服务策略,提供不同的服务内容,其关键在于必须知道用户的兴趣,并准确地建立用户兴趣模型。
  
  一、WEB挖掘
  
  1.Web数据挖掘概述
  Web数据挖掘,简称Web挖掘,是数据挖掘技术在Web环境下的应用,是集Web技术、数据挖掘、统计学、计算机网络、数据库与数据仓库、可视化、信息科学等众多领域的一项综合技术。Web数据挖掘是指在互联网上挖掘有趣的、潜在的、蕴藏的信息以及有用的模式的过程。Web挖掘不同于数据挖掘,主要区别在于数据挖掘面对的是结构规范化的数据库,而Web资源是异构的,多为半结构化或非结构化的文档、图形、图像、声音等。
  2.Web挖掘的分类
  Web信息的多样性决定了Web挖掘的多样性。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web 结构挖掘、Web 使用记录挖掘。Web挖掘详细分类如图1所示。
  
  Web个性化服务系统的一般步骤是:(1)收集用户的各种信息,如注册信息、访问历史等;(2)分析用户数据,创建符合用户特性的访问模式;(3)结合用户特性,向用户提供符合其特殊需求的个性化服务。用户对系统提供的服务做出反馈信息,系统根据反馈信息调整服务。通过用户与系统之间循环反复的交互,系统最终能够为用户提供个性化服务。从上面的分析可以看出,通过分析用户的各种信息建立用户访问模式是建立个性化系统的关键。Web挖掘是实现用户建模的基本要求。
  3.目前Web个性化服务系统的研究现状
  目前已经出现了多个应用Web挖掘技术创建的Web个性化服务系统。这些系统应用的Web挖掘类型包括使用挖掘、内容挖掘和结构挖掘;收集数据的方式有三种,即从客户端、代理或服务器得到原始数据。最后提供的服务有两类,即过虑服务和导航服务。
  实现个性化服务的关键,就是对Web用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行准确地协作推荐。
  准确地描述用户的兴趣主要包括两个方面:(1)从用户浏览信息中准确地挖掘出隐含的用户兴趣信息;(2)采用准确的表示方法来表示用户兴趣。在预先不知道用户兴趣类型的情况下,一般采用聚类算法对用户的浏览信息进行分析。有了聚类结果,怎样来表示用户的兴趣又是另一个重要方面,该表示方法应该满足准确、易于理解和易于更新的要求。
  三、高校档案馆用户兴趣挖掘的建模过程概述
  Web挖掘是数据挖掘方法在Web环境下的应用,它从数据挖掘发展而来。Web挖掘与传统的数据挖掘相比有许多独特之处。首先,Web挖掘的对象是海量、异构、分布的Web文档数据。通常认为以Web作为中间件对数据库进行挖掘,以及对Web服务器上的日志、用户信息等数据展开的挖掘工作,仍属于传统数据挖掘的范畴。其次,Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。此外,由于Web文档本身是半结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适合于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上。
  由于档案信息数据的特殊性,基于高校档案馆用户浏览页面内容的挖掘有别于一般的数据挖掘。通过采集用户浏览历史信息数据,然后对这些文本数据进行预处理,得到文本的向量空间模型表示,在此基础上可以对文本进行相似度计算并用于聚类分析。有了文本的基于不同主题的正确分类后,最后分析高校档案馆用户每一兴趣子类的权值,并采用二层树状结构模型来表示用户的兴趣。这就是整个高校档案馆用户兴趣挖掘过程模型,如图3所示。
  从图3中可以看出,整个高校档案馆用户兴趣挖掘过程都不需要用户的参与,是完全的隐式创建。系统自动获取用户的浏览信息,经过分析处理后输出用户的兴趣模型。将所得的用户兴趣模型应用于个性化系统推荐服务中,根据用户的反馈信息可以对模型进行更新,符合高校档案馆用户兴趣动态变化的要求。
  1.元数据获取
  用于Web数据挖掘的数据很多,包括日志信息、用户行为数据、页面超链接信息、页面内容数据、用户注册信息、站点拓扑结构信息等,这些数据一般可以从高校档案馆的服务器端、客户端、代理服务器端获得。服务器端所提供的数据记录了所有高校档案馆用户访问服务器的详细资料;代理服务器记录了多个高校档案馆用户在多个Web站点间的浏览行为;而客户端数据则很直接地反映了某个个体的单一的浏览行为。所以三个不同的数据源分别反映了不同的研究对象群体。在获得用于数据挖掘的元数据后,将它们进行整理并以适当的格式进行保存,供聚类分析和用户兴趣模型建立使用。
  本文中用于高校档案馆用户兴趣挖掘的元数据主要是用户浏览页面的内容信息,它被用于基于内容的聚类分析。这些页面的内容信息主要来源于Web服务器端,首先根据用户的浏览日志记录,得到单一用户的浏览历史页面URL,然后从数据库服务器中取出这些URL对应的Web页面另存于该用户的浏览页面文件夹中。
  2.数据预处理
  与数据库中的结构化数据相比,Web文档具有有限的结构,或者根本就没有结构。即使具有一些结构,也是着重于格式而非文档内容。不同类型文档的结构也不一致。此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。
  Web文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存作为文档的中间表示形式。文本特征指的是关于文本的元数据,分为描述性特征和语义性特征。描述性特征诸如文本的名称、日期、大小、类型等易于获得,而语义性特征较难得到,包括文本的作者、机构、标题、内容等。W3C近来制定的XML、RDF等规范提供了对Web文档资源进行描述的语言和框架。在此基础上,可以从半结构化的Web文档中抽取作者、机构等语义性特征。
  3.文本聚类分析
  对Web页面文本进行预处理后,得到文本的特征表示。基于这些结构化表示的数据,就可以采用现有的 Web知识发现方法进行知识挖掘,常用的方法有聚类、关联分析等。
  文本分类是指按照预先定义的主题类别为文档集合中的每个文档确定一个类别,它是一种监督学习,对一系列训练样本的分析来预测未知页面的类别归属。与文本分类不同,文本聚类没有预先定义好的主题类别,它是一种无监督学习方法。它的目标是将文档集分为若干类,要求同一类内文档内容的相似度尽可能大,而不同类间相似度尽可能小。基于用户浏览内容来挖掘用户的兴趣是在预先不知道高校档案馆用户兴趣类型的基础之上进行的,所以采用聚类分析方法更适合。整个聚类分析以文本特征表示的页面集为输入,经过聚类后输出表示高校档案馆用户不同兴趣类型的多个兴趣页面集合,每一集合内的页面都与某一特定的主题类别相关。
  4.高校档案馆用户兴趣建模
  在利用正确的聚类分析方法得到准确性较好的用户兴趣类页面簇后,怎样准确地表示用户兴趣就成了整个用户兴趣挖掘的关键所在。
  对高校档案馆网站访问者个人特性爱好的了解是 Web站点提供高效的个性化服务的重要手段。由于网站的设计者和管理者无法直接了解用户的特性,所以我们采用一种根据每个用户的浏览行为为用户兴趣建模的手段提供个性化服务。
  用户兴趣建模(Modeling User Interests)是指根据访问者对一个Web站点上Web页面的访问情况,可以模型化用户的自身特性和兴趣爱好。在识别出用户的特性后就可以开展有针对性的个性化服务。用户兴趣建模的主要目的是识别用户的信念、目标和计划,以提供个性化的服务。用户兴趣建模的步骤一般包括以下几个:
  (1)定义数据结构以满足系统需要;
  (2)识别当前用户;
  (3)加载当前的用户模型,如果不存在这样的模型就按照缺省方式新建一个;
  (4)在用户与系统交互的基础上更新模型。
  通常,用户兴趣建模主要有三种途径:
  (1)推断匿名访问者的人口统计特性
  由于Web访问者大都是匿名的,所以需要根据匿名访问者的访问内容推断访问者的特性。例如,可以根据已知访问者的统计特性(如:性别、年龄、收入、教育程度等)和对页面的访问内容来推断未知用户的人口统计特性。在得到访问者的人口统计特性后就可以提供个性化的、有针对性的服务。
  (2)在不需要用户参与的情况下,得到用户兴趣描述文件
  用户兴趣描述文件用于描述用户的基本兴趣特性。要想使Web站点自适应和个性化,一条重要的途径就是了解用户的基本特性,这样才能开展有针对的服务。在前面已经讨论到,用户兴趣描述文件就像一个人在某个Web站点的身份证,它唯一标识了该用户。
  (3)根据高校档案馆用户的访问模式来得到用户群体兴趣
  基于高校档案馆用户的公共访问特性而进行用户聚类,是Web访问信息挖掘的一个重要方面。用户的访问特性由用户的访问日志得到,聚类的结果可以被用于分类用户或给高校档案馆网站管理者提供参考价值。
  
  四、总结与展望
  
  高校档案馆个性化Web服务通过收集和分析高校档案馆用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的档案信息访问者。实现高校档案馆个性化服务的关键就是对高校档案馆用户浏览信息进行正确的分析,准确地描述用户的兴趣。只有准确地把握用户的浏览兴趣,才能将用户感兴趣的资源推荐给用户,也才能在用户群之间进行协作推荐。?筅
  
  参考文献:
  [1]吉根林,孙志挥.Web挖掘技术研究[J].计算机工程, 2002 Vol.28 No.10 16-17.
  [3]Magdalini Eirinaki,Michalis VazirgiannisWeb Mining for Web Personalization, ACM Transactions on Internet Technology,Vol.3,No.1,February 2003,Pages 1-27.
  [4]史忠植著.知识发现[M].北京:清华大学出版社,2002.
  [5]冯是聪,单松巍著.基于Web 挖掘的个性化技术研究[J].计算机工程与设计,Vol.25 No.1
其他文献
朝花幼儿园秉承“正德修身为根,敏事勤思为先,人事相宜为要”的人才观,致力于建设一支“师德崇高、情操高尚、业务精良、结构合理、充满活力”的高素质专业化教职工队伍。截止目前,朝花幼儿园的教职工队伍已达1500人,其中99%来自社会聘用,1%是由教委委派的优秀干部和园长。一线教师的平均年龄为25岁,大专以上学历占比为94.3%。为实现朝花高品质、内涵式发展提供了人才保障,根据《中共中央国务院关于全面深化
10月的一次教研活动中,我作为访客教师,走进了中一班。角色区,“餐厅”里的“收银员”正在点钱——将崭新的玩具人民币按照面值大小进行分类,一名像是顾客的小女孩正站在餐厅门口发呆。我问小女孩是否要进餐厅,她抬头看了我一眼又低下,小手紧紧地拽着衣角,犹豫地摇摇头但并未离开。  我推开餐厅的门,在椅子上坐下:“請问有服务员吗?我想点餐,谁可以帮我介绍一下?”连问两遍,没有人应答。这时门边的小女孩突然过来指
有专家说,儿童是读不懂的。我同意这种说法,我们确实不可能完完全全地“读懂”某一儿童,但我们不能因此而放弃读懂儿童的努力。事实上,读懂儿童也是有各种层次的。有的人可能刚好读“反”了,有的是四分之一懂,有的是二分之一懂,有的是四分之三懂,有的是十分之九懂。虽然没有百分之百的“完全”懂,但我们在越来越懂儿童。这样的努力,是不能用“儿童是一本读不懂的书”来否定、放弃读懂儿童的。  怎么算“读懂”儿童?不同
【摘要】低年级说话写话训练,要由易到难,由扶到放,循序渐进地进行。教师要培养学生写话能力,必须与说话训练紧密结合起来,重视培养学生的兴趣、语感,借助多元情境教学,带领学生走进生活,寻找说话的乐趣,挖掘写话的素材,变通写话的形式,让学生乐于说话、乐于写话,把学生顺利地引入习作之门。本文以《说说写写:我爱吃的水果》教学为例就此进行探讨。  【关键词】创设情境 抓住特点 激发兴趣 动手实践  语文课程标
在幼儿园,我们时常会发现孩子的口袋里装满了各式各样的东西,有家里带来的小玩具、幼儿园区角的废旧材料、户外的落叶、路边的石头以及很多成人意想不到的东西。孩子口袋里的神秘世界对儿童来说有什么意义?为什么会出现这样的情况?成人应该如何对待孩子的口袋世界呢?  其实口袋和口袋里的世界对幼儿来说非常重要,它们被心理学家称为幼儿的“自我领地”“想象、收藏的世界”,以及“空间敏感期的展现”等。当幼儿在生活中感受
一切还要从几天前的区角活动说起。  意外  完不成的计划  这一天,子耀和淼淼的计划是“一起在积木区里修几层高楼”。但由于他俩来得较晚,当他们开始游戏时,计划要用到的空心大积木已所剩无几了。两个人用仅剩的3块空心积木和几根长条小积木很快地搭好了楼房。淼淼说:“没有(空心积木)了,怎么办呀?”子耀拿来几块拱形积木说:“这种还有很多,我们玩这个吧。”淼淼把拱形小积木挂在手上,说:“看,一条手环。”子耀
素质教育的目标是提高学生的基本素质,用理想、美德、文化、纪律培育社会主义事业的建设者。之所以说课程是教育的核心,正是源于教育是培养人的活动。那么,让“育礼”课程渐进渐深成为儿童成长的滋养,使儿童获得自由和尊重,释放灵性与梦想,构建内在的自我,实现生命的创造,必然成为每一所学校的神圣使命。一、“育礼”课程是学校文化定位的必然抉择  “衣冠上国,礼仪之邦”。礼仪有很多种,除了日常的衣食住行内展现个人素
“安吉游戏”是一场“真游戏”的革命,教师是开展“安吉游戏”课程的核心要素。因此,提升教师专业素养是保证课程质量的关键。“安吉游戏”是“真游戏”,教研也必须是“真教研”。对于幼儿园教研,安吉县教育管理部门从县级层面提出要求:追问到底、回答清楚、落实到位。追问和回答的过程就是反思、假设的过程,落实到位就是验证的过程,这是一个辩证思维的过程。教师的专业性就在这样的循环往复中不断成长。  “真教研”就是要
时光荏苒,我已经在幼儿园当了5年“孩子王”。记得刚开始工作的时候,我会因为引导一位孩子吃完饭菜而高兴好一阵子;会因为逗乐一个哭泣的孩子而兴奋地到处诉说;会因为教会一个孩子整理衣物而自豪不已。随着时间的推移,这些事融入了每一个日出日落,没有了最初的新鲜感,我在幼儿园的收获又是什么?华东师范大学刘晓东教授认为:“在一定意义上,儿童是成人生活的导师,儿童的生活里蕴藏着人生的种种真趣、真谛。”仔细想来,在
摘 要:传统的Flash教学游戏通常将教学内容设计到程序代码中,在游戏过程中教学内容保持不变,因此阻碍了学习者对新知识的学习。本文详细阐述了一个Flash教学游戏设计实例,简要分析了Flash连接数据库的三种常用技术,并结合开发实例,详细介绍了采用XML与ASP脚本语言相结合的方式,实现Flash与数据库的连接,从而完成对教学游戏中教学内容实时更新。  关键词:Flash 教学游戏 XML ASP