基于共享近邻聚类的协同过滤算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:niuniu31
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和互联网的飞速发展,网络信息资源正以惊人的速度在增长,人们逐渐从信息匮乏的时代走入了信息超载(Information Overload)的时代。推荐技术就是解决这一问题的重要工具。协同过滤技术是应用最早且最为成功的推荐技术。然而,随着系统规模的不断扩大,协同过滤技术在推荐的准确性和实时性上面临巨大的挑战。将聚类技术引入协同过滤算法,能一定程度提高算法的实时性。而现有利用聚类技术改进的协同过滤算法,大都依赖于传统距离相似度和密度,在推荐数据上无法取得良好的聚类效果,从而影响算法最终推荐结果的准确度。  本文首先针对传统相似度和密度在高维空间和密度不均匀数据集上存在的缺陷,结合共享近邻相似度思想,提出了一种基于互为最近邻的子簇相似度。同时提出了一种k-最近邻图的稀疏化方法,用于构造互为最近邻稀疏图,可以显著地降低噪声和离群点的影响,提高后续计算的有效性。最后利用基于互为最近邻的子簇相似度用于凝聚层次聚类,设计了一种基于互为最近邻图的聚类算法。实验结果表明,该算法可以提高聚类结果的聚类纯度与聚类精度。  为了解决协同过滤算法在用户数目增大时存在的实时性和可扩展性问题,提出了一种基于共享近邻聚类的协同过滤算法。首先针对推荐数据的属性与特点,以及现有聚类算法在用户聚类上存在的缺陷,提出了一种基于共享近邻的用户聚类方法。再从聚类结果中选出相似簇进行查找获取相似用户,使最近邻居的搜索空间时间大大缩短,提高算法的实时性。并且可以通过参数的调节,平衡推荐准确度与实时性。经过标准数据集上的对比实验,该算法在保证推荐算法准确度的前提下,能有效地提高推荐系统的实时性。
其他文献
本文研究了GIS和模式识别的相关技术,通过分析常用的地图匹配算法,提出了一种新型的综合地图匹配算法,并针对目前巡更系统的弊端及发展趋势,采用GIS、地图匹配、曲线拟合、跨平台集成地图、OLE自动化等技术,设计开发了基于GIS的巡更系统,实现了巡更机与监控中心主机通信、数据采集与提取、巡更轨迹模式识别、地图显示及巡更评判等功能。通过大量测试验证了本系统采用的地图匹配算法能有效提高匹配精度,取得了很好
随着计算机、网络和图像处理技术的发展,医学图像处理技术在临床诊断、教学科研等方面发挥了重要的作用。医学诊断要借助对医疗图像(如CT、X光、B超等)的分析来实现。但许多
随着P2P计算模式的兴起、网络带宽的增加和Internet计算能力的迅速增强,如何充分利用这些资源,在动态的P2P网络环境中构建高可扩展、高可靠、高性能的分布式计算系统,是近年
语音服务的特点是亲切,互动性强、受众面广。因此,作为语音服务的主要承载者,呼叫中心受到了越来越多的重视。目前的呼叫中心大多采用以语音为中心的实现方式,而这种方式未能与业
MPLS的流量工程采用已有的路由选择算法和链路流量分配算法,通常会造成流量在资源不足的链路上传输,而资源充足的链路却占用率很低,并最终造成链路拥塞。本研究的主要目的是如何
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。而聚类作为数据挖掘重要的一个
随着计算机网络、通信等技术的发展,智能Agent的研究已成为人工智能研究的一个热点。尤其是许多专家学者一直希望在现实世界里构建一个自主、具有推理能力的Agent,其中一个主
自从1994年Adleman用DNA链解决一个简单有向哈密顿图问题以来,DNA计算已经形成国际科学前沿领域内研究的一个新的热点,引起许多不同学科学者们的兴趣。DNA计算机的研制需要诸
随着因特网通信业务量的不断膨胀,如何有效地在QoS约束下寻找具有最小网络费用的多播路由树成为研究的热点。论文主要研究基于蚂蚁优化算法的具有QoS约束的分布式多播路由算
计算机技术、多媒体技术以及Internet技术的长足发展导致了大量图像的出现,如何有效地、快速地从大规模图像数据库中检索出所需的图像是目前一个相当重要又富有挑战性的研究