论文部分内容阅读
信息技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化服务应运而生。推荐系统是实现个性化服务的一项重要内容,它通过收集用户特征资料并根据用户偏好为用户主动进行个性化的推荐,并且跟踪用户兴趣变化,实时更新推荐。根据与用户偏好进行比较的信息的不同,推荐技术可分为基于内容的推荐技术和协作过滤推荐技术,这两种技术都有各自的优点与不足,很多系统通过结合这两种技术来达到更好的推荐效果。
本文设计并实现了一个科技文献的推荐子系统,该子系统是高等学校博士学科点专项科研基金“协作式科技论文网络共享平台”项目(编号20070001073)支持的PKUSpace中的一部分。PKUSpace致力于建立一个科研服务与交流平台,提供科技文献的存储、共享、检索、导航等基本功能,并融入了web2.0的因素,提供协同标签,阅读笔记以及个人文献视图等功能。在此基础上还提供了标签挖掘及文献的个性化推荐等服务。
本文结合了PKUSpace中Web2.0的因素,提出了以协同标签为基础,结合科技文献的内容信息,并融合了基于内容过滤与协作过滤技术的组合推荐框架。本文的新思路在于:
·使用协同标签构建语义概念,并计算语义概念之间的相似度形成本体。协同标签是web2.0系统中常用的资源组织方式,本文提出的算法能够适用于所有提供了协同标签功能的系统。
·使用本体中的语义概念表示用户兴趣和文献特征。相比于目前多数只是简单地利用用户是否对资源打过标签这一信息来判断用户是否对资源感兴趣的方法,此方法为用户兴趣引入了文本内容,并同时为用户兴趣和文献特征引入了丰富的语义信息。
·使用文献的TF-IDF特征向量计算文献对目标用户的新奇度,用于过滤内容高度相似的文献,从而为用户发现新的感兴趣的文献,避免推荐与他标记过的文献内容非常相似的文章。
实验表明,本文提出的方法不仅提高了原PKUSpace中推荐子系统的准确率,而且对最终的推荐列表进行了很好的组织。