基于协同过滤的推荐算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zhangbaichi001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今已是web2.0时代,不仅数据量、数据类型依旧呈爆炸式增长,网民数量每年也在大幅增长,信息不对称问题依旧是当前的热点问题,对于这一问题的研究也在持续的深入。推荐系统作为解决该问题的重要手段之一,无论在工业和商业上的应用,还是在理论研究方面都是热门领域,推荐算法则是实现推荐系统的核心内容。目前推荐算法中应用最广泛的是协同过滤推荐算法,然而该算法存在很严重的数据稀疏性问题,影响着评分预测的准确性。本文针对协同过滤算法中核心的两个步骤进行改进,利用标签数据建立用户和项目间的联系,降低数据稀疏性带来的影响,提高评分预测的准确性。本文在以下几个方面展开了研究:1.为了解决一种特殊的数据稀疏性问题,即用户冷启动问题,对协同过滤算法中的第一个步骤——计算近邻用户集合进行了改进。在基于模型的协同过滤算法的概念基础上,将标签数据作为用户的属性特征,提出一种将标签数据与朴素贝叶斯分类算法结合的算法。本文利用统计学和概率论的思想建立用户和标签之间的关联,从而更准确地表达用户的偏好信息。并将用户和标签之间的关联与朴素贝叶斯分类算法相结合,实现对目标用户的近邻用户的计算,以及对新用户进行类别的匹配。此外,考虑标签的扩展性和时间上下文信息这两个因素,进一步降低数据稀疏性带来的影响。最后设计实验,通过对比不同算法的RMSE值来验证提出的算法能够提高目标用户近邻用户集的质量。2.为了进一步提高评分预测的准确性,针对协同过滤算法中的第二个步骤——评分预测,通过用户-标签、标签-项目间的关系对评分预测方法进行改进。利用标签数据能够更准确地表达用户对项目产生评分的原因这一特点,将用户-标签间的关联、标签-项目间的关联作为两个独立的影响因子,在进行加权求和后作为一个权重因子,再加权到传统评分预测方法中。最后设计对照实验,以RMSE、准确率、召回率和覆盖率作为测评标准,将本文提出的算法和其他算法进行对比。通过实验验证了改进后的评分预测方法,能有效提升评分预测准确性,并且将上述两个研究内容的方法进行结合后再进行对比实验,结果表示,结合后产生的评分预测值更加准确。
其他文献
研究背景与目的:目前研究表明肝癌预后在一定程度上与肝癌细胞在缺氧微环境中生物学行为的改变密切相关。而缺氧微环境中肿瘤相关巨噬细胞(TAM)通过表达抑制性配体和分泌趋化
采用分子标记(RAPDs)对上海地区入侵种加拿大一枝黄花(Solidago canadensis)种群遗传结构进行分析。采用10条引物扩增了8个种群185个个体,共得到92条条带。95%标准下,多态位点百
紫花苜蓿(Medicago sativa)苗期生长缓慢,导致杂草生长迅速,严重影响苜蓿草产品的产量和质量。为此,本研究选择市场上6种安全、低毒且适于豆科植物使用的除草剂进行筛选试验。
<正>南开大学周恩来政府管理学院(简称"周政学院")组建于2004年,包括政治学、社会学、行政管理、社会工作与社会政策、国际关系、社会心理学等六个系和高等教育研究所、公共
试验选用乙草胺、2,4-滴丁酯、甲·乙·莠和乙·莠·滴丁酯4种除草剂对玉米田进行处理,分别于不同时期调查杂草株数、鲜质量和玉米株高、茎粗和产量,研究4种除草剂对玉米田杂
花是被子植物最关键的创新(innovation)性状。在被子植物的不同类群中,其形态多种多样,尤其以基部真双子叶植物的花形态最为丰富。大量的系统发育分析表明,在核心真双子叶植物
国内视频网站自制娱乐节目目前主要有独立制作、与专业制作公司合作、购买国外版权、反向输出电视台等四种生产模式。在内容上以真人秀为主体形式,以明星为人气保证,注重受众
方便米粥深受消费者欢迎,但市售方便粥均有不足:脱水干燥米粥老化回生严重且复水后米汤不够粘稠、口感欠佳;罐藏米粥相对接受度、市场占有率高,但用料单一、口味传统、营养价
目的探讨细胞间粘附分子-1(ICAM-1)及P选择素的表达变化与损伤时间的关系.方法应用免疫组织化学技术,对实验大鼠不同损伤时间的生前伤(5min~7d)及死后伤(5~30min)皮肤组织中ICA
<正>在《美元贬值将推动亚洲国家加速整合》(见《中国企业家》2005年第2期).我论述了美元危机的不可避免。由于美联储不断加息,可能导致房地产市场崩溃.美元危机已经逼近了。