论文部分内容阅读
Web2.0自2004年被提出之后就得到了广泛关注,其以“用户”为中心注重人机交互的理念,使用户不再处于被动阶段,而是掌握住了主动权,能够随时随地与Web产生交互,他们既是互联网信息的接受者,也是网络信息的创造与发布者,在这开放的互联网环境中人人能参与、能创造、能共享信息。社会化标注是Web2.0时代一种新兴的网络信息资源组织方式,其由用户根据自己的意愿为网络中各种资源使用关键词即标签(Tag)进行标注,以实现有效组织、分类和检索等目的,目前被广泛应用,但其自由性与无控性所产生的问题开始也逐渐显现,影响了其效用的发挥。为达到规范标签,改善标签质量,标签推荐受到了越来越多的关注。在这种背景下,本文基于对目前社会标注系统、现存标签推荐系统的深入分析,包括对其实现原理和优劣势的分析后,针对如何把多种标签来源融合在一起从而提升标签推荐结果的全面性与准确性,以混合推荐方法为突破口,结合目前主流的个性化推荐技术,同时引入LDA主题模型及信任机制,构建一种多源型的标签混合推荐模型,融合三种推荐方法即基于资源内容的推荐、基于资源的协同过滤和基于用户的协同过滤共同形成最后推荐结果,并详细阐明该推荐模型的实现方法,最后通过“豆瓣读书”进行相关的实证研究。本文一共有六个章节:第一章阐述了本研究的背景和意义,并对国内外的有关研究情况进行阐述,并明确了本文的研究内容、方法等。第二章是对社会化标注系统、目前个性化推荐技术及信任机制相关理论的介绍,包括社会标注系统的定义、应用、推荐原理、几种传统的个性化推荐技术和信任机制的定义、性质及其分类。第三章探讨了几种主题模型的相关内容,包括其概念基础和工作原理,介绍了当前主流的一些相似度计算方式及基于LDA的相似度计算,并为后续模型的构建作了铺垫。第四章构建标签混合推荐模型并对其进行阐述。包含三种推荐方法:第一种是基于内容的标签推荐,主要利用TF-IDF从资源本文内容中抽取关键词作为得到标签候选列表;第二种是基于相似资源的标签推荐,主要是利用LDA对资源的文本内容进行主题模型训练,计算资源的相似度,得到推荐的候选结果;最后是基于相似用户的标签推荐,主要是利用LDA对用户进行主题模型训练,从而得到用户的相似性,并同时引入信任机制,通过对用户相似度及信任度的合并基础上产生基于用户的标签候选列表;最后对三种候选列表进行合并,得出最后的标签推荐结果。第五章为模型的实证阶段。以“豆瓣读书”为对象,爬取数据并结合本文提出的模型各步骤进行实证研究,从而验证模型的有效性及可用性。第六章对全文进行了总结,并在分析过本文研究的不足之处后,对下一步工作提出了展望。