双向聚类迭代的协同过滤推荐算法

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:gouridzmhuiyouren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及和网上贸易的迅速发展,电子商务系统已成为人们网上购物的主要平台。在给用户提供更多选择和方便的同时,其结构也变得更加复杂和庞大,用户经常会迷失在大量的商品信息空间中,无法迅速找到自己所需的商品。这种情况下,推荐系统应运而生,它在电子商务系统中具有良好的发展空间和应用前景,已成为电子商务领域研究的一个重要内容。推荐系统是根据用户已有的评价信息或历史记录实现个性化服务的系统,向用户推荐其感兴趣的商品或信息。人们将数据挖掘中的各种技术应用于推荐系统的研究,取得了很多成果并且开发出一些优秀的推荐系统,极大地促进了推荐技术的发展。但是,现代电子商务系统中用户和项目数以万计,而且发展非常迅速,使得推荐系统面临一些困难和挑战,主要包括:推荐准确度、实时性要求、数据稀疏问题和可扩展性问题。协同过滤是目前应用最广泛的推荐技术。针对推荐系统面临的数据稀疏问题,本文提出了两种改进的基于聚类的协同过滤算法:基于项目平滑和聚类的方法,双向聚类迭代的方法。将用户和项目分别聚类,在与目标项目最相似的前若干个聚类簇中搜索它的最近邻居,可以缩小搜索邻居的范围,提高推荐算法的实时响应速度。基于项目平滑和聚类的方法中,利用聚类信息,对用户未评分的项目做平滑处理,使得用户-项目矩阵变得稠密,然后在项目聚类中寻找目标项目的最近邻居,在一定程度上可以解决数据稀疏对推荐精度的影响。双向聚类迭代的方法中,引入二部图概念来表示用户和项目之间的关联关系,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使聚类簇达到较稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大,这样也可以在一定程度上解决数据稀疏问题的影响,提高推荐的准确度。本文的实验采用标准的MovieLen数据集,用K-mean聚类法对用户和项目进行聚类,观察在不同聚类数目的情况下,类内距与类间距之比。然后考察本文提出的两种方法的MAE值(平均绝对偏差),并与其他一些传统的协同过滤算法的MAE结果相比较,来验证算法的有效性。实验结果表明,相比于其他一些传统的方法,两种新方法在效果和效率上都表现得较好,能够有效解决数据稀疏问题,提高推荐系统的实时响应速度。
其他文献
采用半结构访谈法、样线调查法和红外相机技术对西双版纳傣族自治州自然保护区、国有及集体天然林所分布的北豚尾猴进行系统调查。结果显示:北豚尾猴共有15~20个种群,约300~500只,分布于勐遮、勐混、易武、勐仑、勐腊等乡镇,且主要集中在自然保护区及天然林分布区,分布海拔为700~2 000 m,所涉及的植被类型有热带雨林、热带季雨林、亚热带常绿阔叶林、落叶阔叶林4种。针对存在的生境破碎化、林下经济作
产业集群是促进技术外溢的重要机制。但相关理论还缺乏充分的经验证据支持。已有为数不多的实证研究存在以下缺陷:产业集群的指标度量不合理,将产业集群对创新的直接效应等同
一次,我给某校初一某班上心理健康教育公开课,许多家长也坐在教室后面听。我问学生:“在家庭生活中你是否感觉到幸福?”结果出乎我的意料,没有一个学生回答“幸福”。教室里异常安
通过地统计学与方差分解等方法,对额济纳二道桥胡杨幼苗、幼树、成树以及微生境因子的分布格局进行研究。结果表明:受不同生活史阶段和微生境异质性的影响,胡杨幼苗趋于聚集
本篇论文属于应用性论文类型,主要内容是研究在我国客车行业中建设品牌的重要意义和品牌管理方法,以宇通客车为案例进行研究。通过对宇通客车现有品牌基础评估,根据企业自身品牌
为对泸沽湖省级自然保护区的生物多样性及环境质量做出更好的评估,分别于2016年3月,6月,7月就其鱼类资源特点及其分布格局等开展了3次调查。结果表明,泸沽湖省级自然保护区记
利用SWOT-AHP分析法,对吉林敦化市老白山森林康养产业进行发展评价。结果表明,其最大优势是多样的地方特产,最大劣势是康养设施的欠缺;最大威胁是巨大的行业竞争压力和资金投