论文部分内容阅读
随着用户需求的多样化,个性化推荐系统不仅用于电子商务,也用于推荐网页、电影、文本等。为了让人们方便准确地获得需要的文献,研究基于文本信息的推荐技术成为必要。文本信息推荐系统的功能是收集和分析用户历史阅读过的感兴趣文本,据此来认识用户偏好信息并建立用户兴趣模型,然后将与模型匹配度高的文本推荐给用户。在文本信息推荐系统中,用户兴趣建模模块是其中一个核心的模块。模型创建时,通过分词、特征选择直接从文本中获得特征词向量的文本表示方法只考虑了文本在词形上的相同点,而忽略了文本在词义上的相同点。这将会导致推荐时,仅能推荐出词形相同的文本,不能推荐出词形不同但词义相关的文本,从而导致查全率低。此外,当用户使用系统的时间越长,用户累计的历史阅读信息就越多。此时,对用户兴趣模型进行更新时,系统从历史用户阅读文本中提取用户兴趣模型的计算量会变得越来越庞大。在此情况下,系统响应时间变得越来越慢。这不利于用户体验。针对以上问题,本文做了如下工作:1)本文设计了一种文本信息推荐系统框架,给出了系统的整体结构和各个模块的功能。本文参与了系统整体设计,实现了用户兴趣模型模块功能。2)提出了一种基于单词间词义相关性的用户兴趣模型创建方法:通常认为每个单词具有多个词义,单纯依靠单词本身无法确定单词的词义,但在同一篇文本中的多个单词,其词义具有相关性,即同一篇文本的多个单词可能具有相同的上位概念(更一般化的概念)。该模型创建方法的主要思想是利用单词间的词义相关性来判断单词在文本中的正确词义,进而选择该词义下的上位概念来构建用户兴趣模型。本文提出了利用文本单词间的词义相关性来进行词义识别的方法。由于单词的一重词义具有它固有的上位概念,单词间词义的相关性体现在它们的上位概念关系中,因此该词义识别方法通过单词间各个词义的上位概念关系来判断单词的正确词义。最后通过该词义识别方法获得单词正确词义下的上位概念,以上位概念表示单词构建文本的概念向量,在此基础上创建用户兴趣模型。3)对用户兴趣模型的快速更新方法进行了研究:通常模型更新是在前一次模型中增加或者删除信息,在这个过程中保存前一次模型创建时的中间结果,在这个中间结果的基础上再进行更新时,可以减少重复计算工作,达到快速更新的目的。本文对模型快速更新方法的一般思路进行了梳理,实现了三种常见模型的快速更新方法。在本文设计的文本信息推荐系统结构上,实现了基于单词间词义相关性的模型增量更新方法。最后通过实验证明,本文提出的基于单词间词义相关性的用户兴趣模型创建方法提取出的模型在推荐时具有更高的查全率。本文这种增量更新方法比原始更新方法具有计算量低、更新速度快的优点。