论文部分内容阅读
随着互联网技术的迅猛发展,网络上的信息资源越来越多。大数据时代同时给互联网用户带来了“信息过载”的难题,传统的资源搜索技术需要用户通过自身知识主动搜索资源,随着网络资源的增加这种方法已经越来越难以满足人们的需求,以“资源搜寻用户”为设计核心的推荐系统技术随之产生,并迅速成为国内外研究热点。协同过滤算法作为推荐系统中最基本和最重要的推荐算法,具有重要的研究价值和应用前景。大量研究表明目前协同过滤算法仍面临着三个主要挑战:(1)降低历史评分中的稀疏性;(2)提高推荐系统的可扩展性;(3)改善新用户和新物品的冷启动问题。基于用户协同过滤算法和基于物品协同过滤算法是两种主要的协同过滤算法。基于用户协同过滤算法有较高的推荐精度,然而稀疏问题和冷启动问题严重影响了该算法的效率;基于物品协同过滤算法在数据稀疏和新用户冷启动情况下表现更优,但是对用户信息的挖掘模式较为简单,大量实验表明基于物品协同过滤算法推荐准确性不如基于用户协同过滤算法。针对上述难点,本文研究了协同过滤算法的相关技术,详细分析了基于用户协同过滤算法和基于物品协同过滤算法。针对两种算法的问题,本文提出了一种混合模式的协同过滤推荐算法,该算法集成基于用户和基于物品两种推荐机制,推荐时根据用户的历史记录动态选择推荐机制。具体的研究工作如下:(1)提出一种推荐模式转换机制,通过该机制混合模式推荐算法在基于用户和基于物品两种推荐机制间转换。考虑到用户评价的主观模糊性,提出了用户历史评价记录的模糊向量转换方法,将评分转换为该物品对用户兴趣历史集的隶属度;引用基于模糊测度的Shapley熵定义了用户历史集不确定度的概念,通过该值度量用户历史集信息量,当信息量不足时使用基于物品推荐机制,当信息量足够时使用基于用户推荐机制,并提出判断信息量是否足够的方法,最后给出处理用户冷启动问题的算法。(2)提出了改进的基于用户推荐算法。传统的基于用户推荐算法在推荐时并没定义用户历史集不确定度,而该值衡量了用户历史物品集所体现的信息含量,当混合模式推荐算法执行基于用户推荐机制时表明用户历史物品集信息含量超过阈值,本文分析了这种情况下更符合用户需求的策略,通过综合用户间相似度与邻居用户的历史集不确定度改进邻居用户权值,最后在Movielens数据集上测试了本文提出的混合模式推荐算法的准确率,验证了该算法的有效性。