论文部分内容阅读
[摘 要] 对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件。本文主要介绍了用户描述文件的表达方式。
[关键词] 个性化服务 用户描述文件
1、引言
由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。信息检索技术满足了人们一定的需求,但由于其通用性差,仍不能满足不同背景、不同目的和不同时期的查询请求。个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。而要提供个性化服务,首先需要跟踪和学习用户的兴趣和行为,并为每一个用户建立一个用户描述文件,这样才能根据不同用户的兴趣和行为提供不同的服务。本文讨论了用户描述文件的表达与更新的关键技术。
2、用户描述文件
对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件(user profile)。用户描述文件刻画用户的特征与用户之间的关系。在制定用户描述文件之前,需考虑下面几个问题:(1)收集什么数据?(2)收集的数据用于什么目的?(3)如何收集数据?(4)根据什么信息源来收集?(5)收集的数据如何组织?(6)用户信息能否自适应地更新?
2.1 用户描述文件的表达
不同个性化服务系统的用户描述文件各有其特点,用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型[1]。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式或访问模式。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。
用户描述文件可以用文件来组织,也可以用关系数据库或其他数据库来组织。目前有一些系统采用基于XML的RDF(resource definition framework)来表达用户描述文件,并利用支持XML的数据库系统来存储用户描述文件,这样,不仅利用了XML的优点,也保持了系统的性能。表3-1从用户描述文件的表达、学习的信息源两方面比较了几个典型的个性化服务系统。
2.2用户信息的收集与更新
在用户第一次使用个性化服务系统的时候,系统可以要求用户注册自己的基本信息和感兴趣的内容,系统也可以隐式地收集用户信息。在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的变化而变化。系统要自适应修改用户信息,必须根据学习的信息源分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。根据学习的信息源,用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目的。隐式跟踪不要求用户提供什么信息,所有的跟踪都由系统自动完成,隐式跟踪又可分为行为跟踪和日志挖掘。
显式跟踪是简单而直接的做法,系统可以要求用户反馈自己对推荐资源的喜好程度。一般情况下,这种做法很难收到实效,因为很少有用户向系统主动表达自己的喜好。比较实际的做法是行为跟踪,因为用户的很多动作都能暗示用户的喜好。用户行为可以表现为查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等等,文献[2]的研究表明,简单的动作(比如点击鼠标)不能有效地揭示用户的兴趣,而浏览页面和拖动滚动条所花的时间可以有效地揭示用户的兴趣。文献[3]的研究表明,用户查询、访问页面、标记书签能有效揭示用户的兴趣。
目前,基于Web日志的挖掘技术发展迅速[4],利用Web日志可以获得页面的点击次数、页面停留时间和页面访问顺序等信息。通过分析Web日志可以获得相关页面、相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新用户描述文件。Web日志挖掘中最常使用的方法是根据网页的点击次数来评价用户对该网页的兴趣,其实这种方法是不完整的,而且经常是不正确的,但该方法可用于辅助其他日志分析技术。尽管Web日志的信息不够全面,但还是可以从中发现许多有意义的信息,比如通过收集用户顺序请求的日期和时间,可以分析出用户在每个资源上所花费的时间,从而可以推断用户对该资源感兴趣的程度;通过收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类;通过分析用户请求的顺序有利于预测用户将来可能的行为,从而推荐合适的信息。
3、总结
通过用户信息的收集与更新,制定出合适的用户描述文件,然后根据文件中的描述为不同用户提供不同的资源,这样就能为不同的用户提供不同的个性化服务。
参 考 文 献
[1] Wu,YH,Chen,YC,Chen,ALP.Enabling personalized recommendation on the web based on user interests and behaviors[A].In:Klas,W,ed.Proceedings of the 11th International Workshop on Research Issues in Data Engineering[C].Los Alamitos,CA:IEEE CS Press,2001.17~24.
[2] Claypool,M,Le,P,Waseda,M,et al.Implicit interest indicators[A].In:Campbell,M.,ed.Proceedings of the ACM Intelligent User Interfaces Conference(IUI)[C].New York: ACM Press,2001.14~17.
[3] Lieberman,H.Letizia:an agent that assists web browsing[A].In:Burke,R.,ed.Proceedings of the International Joint Conference on Artificial Intelligence[C].Menlo Park, CA:AAAI Press,1995.924~929.
[4] Zaiane,O R,Xin,M.,Han,J.Discovering Web access patterns and trends by applying OLAP and DATA mining technology on Web logs[A].In:Howe,S E,Smith,T R,eds.Proceedings of the IEEE International Forum on Research and Technology Advances in Digital Libraries[C].Los Alamitos,CA:IEEE CS Press,1998.19~29.■
[关键词] 个性化服务 用户描述文件
1、引言
由于Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。信息检索技术满足了人们一定的需求,但由于其通用性差,仍不能满足不同背景、不同目的和不同时期的查询请求。个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求。而要提供个性化服务,首先需要跟踪和学习用户的兴趣和行为,并为每一个用户建立一个用户描述文件,这样才能根据不同用户的兴趣和行为提供不同的服务。本文讨论了用户描述文件的表达与更新的关键技术。
2、用户描述文件
对个性化服务系统来说,最重要的是用户的参与,为了跟踪用户的兴趣与行为,有必要为每个用户建立一个用户描述文件(user profile)。用户描述文件刻画用户的特征与用户之间的关系。在制定用户描述文件之前,需考虑下面几个问题:(1)收集什么数据?(2)收集的数据用于什么目的?(3)如何收集数据?(4)根据什么信息源来收集?(5)收集的数据如何组织?(6)用户信息能否自适应地更新?
2.1 用户描述文件的表达
不同个性化服务系统的用户描述文件各有其特点,用户描述文件从内容上可以划分为基于兴趣的和基于行为的两种类型[1]。基于兴趣的用户描述文件可以表示为加权矢量模型、类型层次结构模型、加权语义网模型、书签和目录结构等。基于行为的用户描述文件可以表示为用户浏览模式或访问模式。在具体实现时可以综合基于兴趣和基于行为这两种表达方式。
用户描述文件可以用文件来组织,也可以用关系数据库或其他数据库来组织。目前有一些系统采用基于XML的RDF(resource definition framework)来表达用户描述文件,并利用支持XML的数据库系统来存储用户描述文件,这样,不仅利用了XML的优点,也保持了系统的性能。表3-1从用户描述文件的表达、学习的信息源两方面比较了几个典型的个性化服务系统。
2.2用户信息的收集与更新
在用户第一次使用个性化服务系统的时候,系统可以要求用户注册自己的基本信息和感兴趣的内容,系统也可以隐式地收集用户信息。在定制好一个用户描述文件之后,系统可以让用户自主修改,也可以由系统自适应地修改,这样,系统就可以随用户兴趣的变化而变化。系统要自适应修改用户信息,必须根据学习的信息源分析当前用户的行为,从而调整用户兴趣的权重或调整用户兴趣层次结构。根据学习的信息源,用户跟踪的方法可分为两种:显式跟踪和隐式跟踪。显式跟踪是指系统要求用户对推荐的资源进行反馈和评价,从而达到学习的目的。隐式跟踪不要求用户提供什么信息,所有的跟踪都由系统自动完成,隐式跟踪又可分为行为跟踪和日志挖掘。
显式跟踪是简单而直接的做法,系统可以要求用户反馈自己对推荐资源的喜好程度。一般情况下,这种做法很难收到实效,因为很少有用户向系统主动表达自己的喜好。比较实际的做法是行为跟踪,因为用户的很多动作都能暗示用户的喜好。用户行为可以表现为查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等等,文献[2]的研究表明,简单的动作(比如点击鼠标)不能有效地揭示用户的兴趣,而浏览页面和拖动滚动条所花的时间可以有效地揭示用户的兴趣。文献[3]的研究表明,用户查询、访问页面、标记书签能有效揭示用户的兴趣。
目前,基于Web日志的挖掘技术发展迅速[4],利用Web日志可以获得页面的点击次数、页面停留时间和页面访问顺序等信息。通过分析Web日志可以获得相关页面、相似用户群体和用户访问模式等信息,个性化服务系统可以利用这些信息创建或更新用户描述文件。Web日志挖掘中最常使用的方法是根据网页的点击次数来评价用户对该网页的兴趣,其实这种方法是不完整的,而且经常是不正确的,但该方法可用于辅助其他日志分析技术。尽管Web日志的信息不够全面,但还是可以从中发现许多有意义的信息,比如通过收集用户顺序请求的日期和时间,可以分析出用户在每个资源上所花费的时间,从而可以推断用户对该资源感兴趣的程度;通过收集用户感兴趣的领域,有利于对用户感兴趣的内容进行分类;通过分析用户请求的顺序有利于预测用户将来可能的行为,从而推荐合适的信息。
3、总结
通过用户信息的收集与更新,制定出合适的用户描述文件,然后根据文件中的描述为不同用户提供不同的资源,这样就能为不同的用户提供不同的个性化服务。
参 考 文 献
[1] Wu,YH,Chen,YC,Chen,ALP.Enabling personalized recommendation on the web based on user interests and behaviors[A].In:Klas,W,ed.Proceedings of the 11th International Workshop on Research Issues in Data Engineering[C].Los Alamitos,CA:IEEE CS Press,2001.17~24.
[2] Claypool,M,Le,P,Waseda,M,et al.Implicit interest indicators[A].In:Campbell,M.,ed.Proceedings of the ACM Intelligent User Interfaces Conference(IUI)[C].New York: ACM Press,2001.14~17.
[3] Lieberman,H.Letizia:an agent that assists web browsing[A].In:Burke,R.,ed.Proceedings of the International Joint Conference on Artificial Intelligence[C].Menlo Park, CA:AAAI Press,1995.924~929.
[4] Zaiane,O R,Xin,M.,Han,J.Discovering Web access patterns and trends by applying OLAP and DATA mining technology on Web logs[A].In:Howe,S E,Smith,T R,eds.Proceedings of the IEEE International Forum on Research and Technology Advances in Digital Libraries[C].Los Alamitos,CA:IEEE CS Press,1998.19~29.■