论文部分内容阅读
“互联网+”时代产生了巨大的信息浪潮,在为用户带来更加宽泛的选择同时也增加了信息筛选的难度,降低了信息利用率。推荐系统存在的目的就是帮助用户快速发现所需信息,并结合用户自身特点和兴趣爱好,为用户寻找高质量高价值的资源,从而减少用户接触重复或无关信息带来的不利影响,提升用户体验度。以往的推荐常以评分或投票作为用户对资源态度的衡量指标,但这类数据往往对资源本体的依附性过强,当资源消失这些指标便会失去价值。大众标注法的引入带来了推荐系统中对资源评价的另一种方式,标签简便易用且利于传播,它不仅能够体现出资源的差异性也反映出了标注者的行为特征与个人偏好。本文对基于标签的推荐系统进行了深入了解,分析了时下主流的三种推荐算法在标签推荐系统中的应用情况。在传统算法的基础上引入关联规则挖掘,并通过使用K-means聚类方法对标签集合分类来降低矩阵的数据稀疏度。通过寻找海量用户行为中的频发行为集合,从中发现隐含规律并以此作为对未来用户的推荐指导,这不仅提高了推荐系统的准确度也增加了结果集中项目类型的覆盖率。主要研究工作如下:第一,提出了一种基于标签的关联规则挖掘方法。传统的标签推荐系统都不同程度的会存在数据稀疏问题和标签语义问题。本文将关联规则挖掘技术应用在对标签的规律发掘过程中,以事务为中心,弱化标签语义的影响。同时,为了增加标签的关联度并考虑长尾标签的价值,使用K-means算法对用户标签集合进行散点聚类。此处通过结合层次聚类算法来设定合理的K值,形成以质心标签为代表的标签簇,簇内标签聚和度高,簇间标签差异性大。然后,将用户一次完整的标签使用情况视为一项有效事务,从所有的事务集合中寻找频发项目。在保留具有一定支持度和置信度的通用规则的情况下,考虑规则可能存在的不对称性因素,并剔除热门标签的影响,发现真正具有一定代表性的关联事件。最后根据目标用户的需求与关联规则触发前件的匹配程度选择Top-N作为推荐标签。第二,根据图书系统的特点,设计了一套适用于该领域的个性化推荐模型。该模型将读者的用户文件作为标签数据来源之一,并根据系统记录提取用户属性作为属性标签,把此类标签视作不同维度的数据,计算其在关联规则中的效用值,从而细分规则。同时,根据用户的阅读记录建立用户知识体系,对用户提出系统的学习建议,让图书推荐结果兼顾个性化与连贯性。本文最后使用豆瓣网的图书数据设计实验,与传统标签推荐系统的测评指标进行对比,验证了该模型的可用性和有效性。