论文部分内容阅读
目前,搜索引擎已成为网民获取信息的一个重要途径。然而随着WEB2.0的迅速发展以及各类社交网站的日益崛起,传统搜索引擎的一些缺陷暴露了出来。一方面,各种Web2.0网站和社交网站拥有海量的用户数据,但传统搜索引擎却无法支持对其检索。另一方面,不同的用户因为职业、学历、兴趣偏好及社交关系各不相同,对搜索结果的期待也往往各不相同,因此对搜索引擎的个性化有很迫切需求。鉴于此,本文设计并实现了一个个性化社交搜索引擎,该系统以开放的社交网络为数据来源,通过分析丰富的用户特征及社交关系来改善传统搜索引擎的结果,旨在把对用户最重要、用户最感兴趣的结果排在最重要位置。用户建模是个性化社交搜索的前提和基础,本文根据真实的社交网络新浪微博的数据特征,提出了一种多维度多层次的用户模型,包括用户影响力模型、用户社交关系模型及用户兴趣模型等三个子模型,全面地描述了社交网络中的用户特征。为不干扰用户正常使用社交网络,本文根据新浪微博API特征,设计了隐式的用户数据获取算法,并根据用户模型,设计了一套用户特征生成算法,包括用于计算用户全局影响力的PersonRank特征生成算法、用以计算用户间相似度及亲密度的社交关系特征生成算法及根据朴素贝叶斯文本分类方法建立用户兴趣特征的生成算法,并采用隐式反馈的更新策略和基于用户主动反馈的策略建立了用户模型的更新机制。在用户建模的基础上,本文设计了一套个性化评分和排序机制。评分和排序算法在全文检索引擎Lucene的评分基础之上进行,融合了用户影响力得分、用户社交关系得分及用户兴趣得分来生成最终的文档得分,然后根据得分对文档重新排序。最后,本文在上述研究的基础上设计并实现了一个基于多维用户特征的个性化社交搜索引擎,并开放给数位用户进行评测。根据对点击日志的统计,表明用户对该个性化社交搜索引擎的满意度较全文检索引擎Lucene有较为明显的提升。