协同过滤系统的数据稀疏性问题研究

来源 :广东工业大学 | 被引量 : 6次 | 上传用户:wgxwjl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是解决信息过载问题的有效方案,已经广泛应用于电子商务、社交网络、音乐社区和电影社区等领域。近年来,协同过滤推荐技术,因其思路简单易实现、数据依赖性低、推荐结果准确等优点,已经成为推荐系统领域中应用最为广泛的技术之一。协同过滤推荐系统主要分为基于内存的方法和基于模型的方法,但是这些算法都有稀疏性、冷启动和扩展性等问题。本文主要为缓解数据稀疏性问题展开了如下工作:(1)提出一种新颖的基于项目候选集的协同过滤算法(CI-CF)。CI-CF算法基于用户协同过滤,引入用户之间的非对称影响度和支持度,并考虑到用户对项目的偏好程度,提出了项目候选集的概念,同时利用项目信息熵对未评分项目集合进行二次修正,得到候选项目集合。基于MovieLens和netflix数据集的实验表明,相比近三年来多个比较流行的算法(如:AC-PCC算法,RA-CF算法),CI-CF算法在推荐结果的准确率、召回率和F1值上都具有较大的优势,有效地降低了用户评分稀疏性问题带来的负面影响,显著提高了推荐系统的推荐质量。(2)提出了基于好友关系和标签的混合协同过滤算法(FT-CF)。首先分析好友之间的关系网络,通过关系传播机制快速寻找关系网络中与目标用户兴趣爱好相似的用户,并找到符合目标用户需要的商品;然后,利用TF-IDF的思想,从用户历史标签记录中挖掘该用户的兴趣爱好;最后将两者有效地结合,以进一步缓解数据的稀疏性问题。基于lastfm数据集的实验表明,FT-CF算法比近三年来较流行的算法(如:PRT-CF算法和UCTRA算法)在准确率和召回率上都具有较大优势。(3)全面总结了对使用标签信息数据、评分数据和用户/项目属性数据等不同种类数据信息的算法,并详细介绍、实现和实验比较了基于标签和协同过滤的个性化资源推荐、基于近邻双聚类的协同过滤top-N推荐系统和基于耦合对象相似度的项目推荐算法。基于MovieLenslOM数据集的实验表明,当推荐系统获得用户/项目的信息越多,我们对用户的了解就越多,就越容易把握用户的兴趣爱好,所以将多方面的数据信息进行有效的融合,有助于提高推荐系统的推荐质量。
其他文献
PLC(Programmable Logic Controller)是一种工业自动控制设备。PLC运行语句表,然后利用I/O装置的输出电压信号控制外部机械或设备的操作。PLC具有适应面广、使用方便、可靠性高、抗干扰能力强、编程简单等特点。软件PLC提供了与硬PLC相同的功能。软PLC也提供了PC环境特有的各种优点。软PLC是一种基于PC机开发结构的控制系统。它具有在功能、可靠性、速度、故障查找等方
张铃教授和张钹院士在深入剖析了人工神经网络的机理后,提出构造性学习理论和方法,获得了成功。构造性机器学习方法是利用球形映射将神经元变换成对有限空间划分的分类器,正
近年来,随着计算机科技的迅猛发展,计算机科技中的各种新技术、新理论、新算法不断涌现,涉及范围越来越广,作为图像的识别、运算与处理基础的图像配准技术也在快速发展中。对两幅
基于属性-值的学习方法的命题化算法是关联规则挖掘算法的的传统方法,即,每一个事实都以的(属性,值)元组形式表示。这种表示形式中,属性种类是固定的,每个属性有一个给定的值
在信息互联网高度发达的今天,解决信息过载问题已经成为互联网技术发展的方向之一。如何从网络海量信息中获取有价值的信息是研究信息过载问题的关键,而个性化推荐作为解决此
当今世界纷繁复杂,各种场合对安全的需求也越来越高。安全、有效、唯一等等得天独厚的优势使得生物特征识别技术逐渐被人们所重视。而根据人行走方式的不同来进行身份识别的
由于互联网技术和云服务的发展,网民数量不断增长,使得各种信息也呈现爆炸式的增长。在这样的趋势下,传统的存储服务已经满足不了现在用户的需求。不管是企业还是个人都需要
机器学习技术已经成功应用在社会生活的各个方面。如手写汉字识别,人脸识别,网络入侵检测等。由于机器学习在应用中取得巨大成就。因此许多研究者都开展了对机器学习的研究。
图像信号在获取、传输和存储等环节,往往会受到各种噪声的污染,严重影响了图像的视觉效果,亦给后续处理带来困难,如边缘检测、图像分割、特征提取、目标跟踪和模式识别等。因
Web服务技术的迅速发展使得Web服务的应用越来越广泛,其最终目的是使得分布在不同地域上的可能由不同的人或组织机构提供的Web服务通过互联网进行交互和集成,以此完成动态的