论文部分内容阅读
随着互联网的普及和信息技术的发展,网络信息的规模呈几何级数增长,信息的无序化、分散化程度日趋严重,使得用户很难从中找到自己真正需要的信息。面对信息需求与信息获取之间的矛盾,用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式。个性化信息服务是指根据用户兴趣向用户提供信息的一种服务模式。个性化信息服务质量的高低不仅仅取决于具体的检索技术、推荐技术,还取决于用户建模技术,而后者尤其重要。用户建模技术已经成为实现个性化信息服务的关键所在。但是,目前的用户建模技术普遍存在模型表示缺乏语义、兴趣获取困难和模型难以进化等缺点。鉴于此,本文从行为心理学的角度分析用户兴趣的特征,将语义技术应用到用户建模中,对用户模型表示、用户兴趣获取、用户模型构建与进化、语义匹配等关键技术进行了研究。本文主要的工作和创新点有以下四个方面:1.提出基于本体的用户模型表示方法。针对传统用户模型表示方法普遍存在缺乏语义、没有统一表示标准等问题,本文利用本体在语义分析、表示方式上的优势,提出了基于本体的用户模型表示方法;设计了计算机科学领域文献检索系统中的用户模型、领域本体和文档本体;充分利用领域知识和统一表示标准的支持,提高了用户模型的准确性和通用性。2.提出用户兴趣获取与兴趣度量化方法。传统的显式和隐式兴趣度量化方法,容易对用户行为造成干扰,很少考虑用户兴趣变化的心理特征,难以准确量化用户兴趣度。本文根据行为心理学理论,充分发掘用户各种交互行为与用户兴趣的内在联系,提出基于用户交互行为的兴趣获取方法;根据用户兴趣变化规律,以单位浏览时间作为衡量指标,提出了基于Logistic模型的兴趣度量化方法。实验结果表明,该方法具有良好的兴趣度量化效果。3.提出基于单向激活扩散模型的用户模型进化方法。传统的用户模型进化方法往往针对兴趣发生改变的单个结点进行调整,很少考虑结点之间的语义关联。本文根据用户模型的结构特征,提出基于单向激活扩散模型的用户模型进化方法。该方法通过扩散方向限制和强度衰减控制,更新关联结点,实现用户模型进化,促使用户模型及时反映用户兴趣的变化。4.提出用户兴趣与文档、文档与文档间的语义相似度计算方法,实现文档序列重排和重复文档汇集。传统的语义相似度计算方法大都利用结点间的语义距离来衡量,难以保证计算的准确性。本文利用用户模型中的结点兴趣度,结合结点的距离与层次,提出基于结点兴趣度的语义相似度计算方法,计算用户兴趣与文档间的语义相似度,实现文档序列的重排。提出基于文档属性的语义相似度计算方法,计算文档间的语义相似度,实现重复文档的汇集。实验结果表明,这些方法能有效提高个性化信息服务的质量。