论文部分内容阅读
随着计算机技术的发展与数字图书馆资源建设的深入,数字图书馆中数字资源的总量日益增多。在集成多种类型资源的统一检索平台上,如何根据用户特点对检索结果进行有效和个性化的(重)排序(re-rank[Qu et al.]),使得用户所期望的检索结果能尽可能排在最前面成为一个亟待解决的问题。数字图书馆中现有的检索系统只能提供几种固定的排序模式,在检索结果排序算法上很少考虑到用户个性化需求的多样性和资源类型的多样性,在检索结果展现方式上缺乏对记录之间深层次关系进行揭示的有效手段,因而很难为用户提供检索结果的个性化排序。
本文以国家“211”的“十五”项目“中国高等教育数字图书馆(CADLIS)”中的子项目“CALIS统一检索系统”为应用背景,重点研究和设计对多种资源的检索结果进行个性化排序的算法,并以此为基础,设计出一个满足数字图书馆环境中用户个性化排序需求的原型子系统。该子系统基于对数字图书馆中各实体的之间关系的融合与分析,实现了个性化排序策略以及该策略的注册与调度模块两个部分。
个性化的排序策略包括:个性化信息服务领域中基于多种关系的用户模型及其表示方式,基于多种关系的用户个性化排序算法,提出了用户个性化综合评分的概念、计算方法以及基于用户个性化综合评分的文档集的概念及其生成与排序算法。
在该策略的注册与调度模块的设计与实现方面,在接口设计上提出了一套通用的接口方案,该方案以SRU[LOC sRu]规范为基础,设计了符合通用检索需求的请求与响应参数格式。该接口不仅能与统一检索系统无缝集成,还能用于与其它检索系统的集成。
在实验方面,本文利用统一检索系统所提供的数字资源对排序子系统相关参数值的选取策略进行了实验。结果表明在采用本文所设计的个性化排序策略后,对于大多数用户而言,该子系统的20-Precision指标比未采用该策略时提高了7%-10%.
数字图书馆个性化排序子系统原型的设计与实现本文还提出了一种加速算法收敛的方法,通过实验证明,该方法能显著改善个性化排序算法的计算效率。