论文部分内容阅读
社交网络的蓬勃发展使其产生了大量冗余数据,如何从中获取有用信息并据此提供推荐服务,成为学术界研究的热点之一。当前,传统的推荐算法主要有基于内容的推荐、协同过滤和混合推荐等。然而,这些算法均在不同程度上存在着数据稀疏、冷启动及计算复杂度高等问题。随着Web3.0的提出,语义网及本体技术为推荐方法指引了新的方向。语义网的实现基于XML、Ontology、RDF三项核心技术。其中,Ontology(即本体)的功能是对特定领域中某些概念及概念间的关系进行形式化表达,从而构建一种结构化的概念模型,提供对该领域知识的普遍、共享的理解。本论文在深入分析社交网络(新浪微博)的结构及数据特点的基础上,将语义网中的本体技术运用到社交网络的服务推荐系统中。首先,利用新浪微博的开放平台API,获取用户个人主页内的微博数据并对其进行预处理;其次,针对现有的关键词提取算法没有充分考虑社交网络数据特点的缺陷,本文提出了TF-MBF算法并将其与现有的TextRank算法相结合,提取用户兴趣偏好关键词;然后,基于WordNet词典的中文版本——Chinese WordNet,构建新浪微博用户兴趣偏好基本本体;最后,根据特定规则从本体中选取待推荐概念集合,同时,提出考虑义原树密度信息的改进语义相似度计算方法,并在此基础上对待推荐集合进行进一步计算,得到最终的推荐结果。实验表明,本文提出的将TextRank算法与TF-MBF算法相结合的关键词提取算法更加适合社交网络数据的分析,增加了义原树密度信息的语义相似度算法计算结果更加精确。将本体技术应用到社交网络服务推荐系统中,得到的推荐结果可以很好地反应用户的真实兴趣偏好,适合实际应用并具有良好的可扩展性。