论文部分内容阅读
在互联网技术的推动下搜索引擎的应用日趋成熟,各式搜索引擎也已成为人们在信息过载的互联网中搜寻信息时的有利工具。然而随着人们对信息的个性化要求越来越高,也对搜索引擎的搜索效果提出了更高的要求。Web2.0及其相关技术的出现为整个互联网带来了一个新的惊喜,其中最具代表的社会化标注(Social Annotation)为提高搜索引擎个性化服务质量带来了新的契机。搜索引擎的个性化方面的研究,集中在如何准确有效的获取用户的个性化特征,及如何根据获取的用户偏好为其提供个性化服务。本文首先全面分析了传统的Web日志挖掘中的关键技术,总结了传统日志挖掘在用户数据获取、数据过滤、模型表示、模型学习及更新的主要方法。在分析出传统web日志挖掘中存在的问题后,本文结合传统的Web日志挖掘方法及对社会化标签数据的处理来获取用户的特征,并据此对用户进行个性化推荐和贡献。社会化标签网带来的是由用户主动标识过的信息资源,相比较传统的Web日志挖掘而言,从这些信息资源中学习用户的偏好特征必然更为客观和准确。其次用户标注行为的本身也具有可挖掘性,用户对某一类资源的标注的频繁度映射了其对这一兴趣点的关注程度;用户在某一类资源中总是可以较早的发现一些质量高的资源,那么依据此特征可以把这些资源推荐给具有相同兴趣的其他用户。论文的主要工作包括以下方面。(一)利用矩阵分别对用户的历史搜索记录和用户标注数据进行描述,并对用户搜索和标注中的关键term进行时间维上的描述。通过由搜索数据及标注数据构建的矩阵最终刻画描述用户的特征模型。(二)基于用户特征的表示探讨了现有的主要用户模型的学习和更新方法,并结合其优点针对其不足提出一种自适应的用户模型的学习方法。(三)在获得用户特征后,针对一般性用户的数据稀松问题提出一种基于协同过滤的个性化推荐;以及根据用户标注行为本身与一般用户特征相结合的方法为用户提供个性化共享服务。