论文部分内容阅读
大数据已经渗透至人类生活的各个领域,并在人们的各项决策中扮演着越来越重要的角色。然而,大数据所固有的信息海量性、价值稀疏性,往往意味着价值数据的发现成本很高、时间开销巨大;而另一方面,用户对大数据应用的高时效性、高准确性期望,又要求系统为用户提供实时而准确的大数据分析和决策。这种现实与期望之间的巨大鸿沟,严重制约了大数据应用在人们生产、生活中的成功部署和实施。有鉴于此,个性化、轻量化的推荐技术应运而生;通过分析用户偏好,推荐系统可以为用户进行快速而精准的个性化推荐,从而大大降低了用户的选择成本和决策负担。由于“领域无关性”、“推荐结果易解释”等优点,协同过滤逐渐成为目前推荐系统中最为常用的技术之一。然而,现有的协同过滤推荐方法,仍然面临许多问题和挑战,具体表现如下:(1)传统协同过滤推荐方法的效率不高,当用于推荐的决策数据规模较大时,推荐所需的时间开销较高,无法满足部分用户的快速响应需求;(2)传统协同过滤推荐方法,大多假设用于推荐的决策数据是集中式的,并未考虑决策数据的多源性,以及多源数据集成时的隐私泄露风险;(3)传统协同过滤推荐方法,往往更关注推荐结果的准确性,而忽略了推荐结果的多样性,因此容易产生低质量的重复推荐或冗余推荐,从而大大降低了用户对推荐结果的满意度。本文主要针对上述三个科学问题进行研究,并将研究成果应用于电影推荐系统中。具体而言,本文的主要研究工作如下:(1)针对协同过滤推荐方法“时间开销过大”的问题,利用局部敏感哈希技术(LocalitySensitive Hashing,LSH),离线地创建用户索引;进而利用用户索引,快速地查找目标用户的相似邻居,从而将邻居搜索的时间复杂度从O(m*n)(m表示用户的数量,n表示服务的数量)降低至O(1),进而大大提高了后续利用相似邻居进行服务推荐的效率。(2)针对多源数据集成时的“用户隐私泄露”问题,利用LSH技术,将敏感的推荐决策数据(如:服务质量(Quality of Service,QoS))映射为低隐私或无隐私的用户索引,进而利用低隐私或无隐私的用户索引,进行相似邻居发现及服务推荐,从而避免暴露真实的QoS数据,并保护QoS数据中隐含的用户隐私信息。(3)针对推荐结果的“功能重叠或冗余”问题,利用服务的功能标签,对不同服务之间的功能差异或距离进行度量,进而根据不同推荐结果之间的功能距离,对推荐列表进行二次“过滤”,从而在保证推荐准确度的前提下,实现功能多样化的服务推荐,以提高用户对推荐结果的满意度。(4)利用上述三部分研究成果,设计并实现一个基于B/S架构模式的电影推荐系统。具体地,根据用户的功能需求与非功能需求,对电影推荐系统的整体架构进行设计;进而在Eclipse开发环境下,通过Java编程语言对推荐系统的各个功能模块实现。从而将局部敏感哈希技术与功能多样化方法,成功应用到电影推荐系统中,使得电影推荐系统可以以一种“快速高效、隐私无忧”的方式,为用户生成精准的推荐列表,同时提供多样化的观影选择。