论文部分内容阅读
随着信息技术和互联网的飞速发展,网络信息资源正以惊人的速度在增长,人们逐渐从信息匮乏的时代走入了信息超载(Information Overload)的时代。推荐技术就是解决这一问题的重要工具。协同过滤技术是应用最早且最为成功的推荐技术。然而,随着系统规模的不断扩大,协同过滤技术在推荐的准确性和实时性上面临巨大的挑战。将聚类技术引入协同过滤算法,能一定程度提高算法的实时性。而现有利用聚类技术改进的协同过滤算法,大都依赖于传统距离相似度和密度,在推荐数据上无法取得良好的聚类效果,从而影响算法最终推荐结果的准确度。 本文首先针对传统相似度和密度在高维空间和密度不均匀数据集上存在的缺陷,结合共享近邻相似度思想,提出了一种基于互为最近邻的子簇相似度。同时提出了一种k-最近邻图的稀疏化方法,用于构造互为最近邻稀疏图,可以显著地降低噪声和离群点的影响,提高后续计算的有效性。最后利用基于互为最近邻的子簇相似度用于凝聚层次聚类,设计了一种基于互为最近邻图的聚类算法。实验结果表明,该算法可以提高聚类结果的聚类纯度与聚类精度。 为了解决协同过滤算法在用户数目增大时存在的实时性和可扩展性问题,提出了一种基于共享近邻聚类的协同过滤算法。首先针对推荐数据的属性与特点,以及现有聚类算法在用户聚类上存在的缺陷,提出了一种基于共享近邻的用户聚类方法。再从聚类结果中选出相似簇进行查找获取相似用户,使最近邻居的搜索空间时间大大缩短,提高算法的实时性。并且可以通过参数的调节,平衡推荐准确度与实时性。经过标准数据集上的对比实验,该算法在保证推荐算法准确度的前提下,能有效地提高推荐系统的实时性。