论文部分内容阅读
随着Internet的发展,网站在为用户提供越来越多信息的同时,其结构也变得更加复杂,如何及时地在网络上的海量信息中发现所需要的信息已经变得越来越困难。推荐系统一方面通过预测用户对项目的喜好程度来为用户提供信息过滤,应用知识发现技术来生成个性化推荐,帮助用户找到所需信息;另一方面辅助企业达到个性化营销的目的,进而提升销售量,为企业创造更多的利润。此外,加之个性化服务发展与普及,推荐系统在越来越多的Web站点上得到广泛应用,特别是各类电子商务平台中。由于推荐系统具有良好发展和应用前景,已经成为Web智能技术中的一个重要研究方向,受到了众多研究者的广泛关注。近年来,推荐系统在理论和实践中都得到了快速的发展,但是随着所应用的系统规模的进一步扩大,推荐系统也面临着一系列的挑战。本论文对推荐系统中的推荐算法及隐私保护等关键技术进行了有益的探索和研究。本论文的研究内容主要是将数据挖掘与机器学习相关技术应用于推荐系统中,主要涉及推荐系统的实时性、推荐质量和隐私保护等方面的应用研究。本论文的主要研究工作如下:(1)针对推荐系统中数据高维稀疏性的影响,提出了一种基于非负矩阵分解的协同过滤技术,分析及实验都表明,算法能够提高推荐生成速度,满足推荐系统实时性要求。实验还表明,算法能够提高推荐质量。(2)推荐系统中项目数量庞大,用户仅能对其中部分项目进行评价。当用户之间缺少对相同项目评分时,即使他们对相似项目进行评分,系统也不将其视为近邻,这就导致了“相似不相同”问题,影响推荐质量。针对这一问题,我们提出了分层相似性的概念,建立了推荐系统的多层相似性度量。实验表明该相似性度量能够提高协同过滤算法的推荐精度。(3)推荐算法的实时性要求一直以来都是研究者关注的重点内容之一。本文提出了一种基于用户聚类的协同过滤算法,通过离线对基本用户进行聚类,在线时利用已有用户聚类搜索目标用户最近邻,并产生推荐。算法分析表明其能够提高目标用户最近邻的搜索效率,加快生成推荐。通过结合多层相似性度量,实验表明,其不仅能够提高推荐生成效率,而且能够提高推荐质量。(4)信息安全和隐私保护是数据挖掘领域的热点之一。推荐系统需要收集用户兴趣喜好等相关数据,在一定程度上涉及了用户的个人隐私,因而推荐系统中的隐私保护也开始受到研究人员的关注。本文提出了一种基于随机扰动的隐私保护推荐算法。算法在用户数据收集过程中采用随机扰动技术,并使用非负矩阵分解对数据进行处理,从而形成隐私保护功能,并在此基础上产生推荐。通过分析及实验表明,算法在保护用户个人隐私的基础上,能够产生具有一定精确度的推荐结果,以满足推荐系统的需要。