【摘 要】
:
大数据时代下,信息种类和数量急剧增加,信息过载日益突出。面对海量数据,用户难以高效地获得有价值的信息。在这种情况下,推荐系统应运而生。在推荐系统中,基于协同过滤的推荐算法被广泛应用。但是,在分布式环境下,传统的协同过滤算法存在不足之处,具体表现如下:(1)该类算法通常假设用于推荐的数据来自单一平台,并没有考虑在分布式环境下,数据往往分布在多个平台的现状,以及来自多个平台的数据在融合、集成中涉及的用
论文部分内容阅读
大数据时代下,信息种类和数量急剧增加,信息过载日益突出。面对海量数据,用户难以高效地获得有价值的信息。在这种情况下,推荐系统应运而生。在推荐系统中,基于协同过滤的推荐算法被广泛应用。但是,在分布式环境下,传统的协同过滤算法存在不足之处,具体表现如下:(1)该类算法通常假设用于推荐的数据来自单一平台,并没有考虑在分布式环境下,数据往往分布在多个平台的现状,以及来自多个平台的数据在融合、集成中涉及的用户隐私泄露问题;(2)在分布式环境下,不同平台的数据更新速度快,利用传统的协同过滤算法对多平台数据进行相似度计算时,往往造成复杂的时间开销,导致推荐效率低,无法满足用户快速响应的需求。此外,数据隐私性与数据可用性之间通常是相互制衡的关系,如何在保护数据隐私信息的基础上,提高推荐结果准确性是另一项重要挑战。针对上述问题,本文改进传统的协同过滤推荐算法,利用局部敏感哈希(Locality-Sensitive Hashing,LSH)技术,提出了两个在分布式环境下支持隐私保护的推荐算法,并将提出的算法SRchain-LSH应用在电影推荐系统中,以实现个性化推荐。本文的具体研究工作如下:(1)针对多平台数据融合中的用户隐私泄露问题,本文提出利用LSH技术保护用户隐私。在本文中,具体介绍LSH的基本概念、余弦距离下LSH函数的计算以及增强LSH基本概念。(2)在保护用户隐私的基础上,针对如何提高推荐结果准确性和推荐过程高效性的问题,本文对增强的LSH进行了研究,提出了增强的LSH推荐算法SRAmplified-LSH。在该算法中,首先通过LSH函数的计算,将原始的用户数据转换成低隐私或无隐私的用户索引;再设计“AND-OR-AND”增强策略来定义用户间的相似关系,提高查找相似用户的准确度;最后根据相似用户的历史行为,利用协同过滤技术为目标用户进行推荐。本文中设计大量实验,验证算法SRAmplified-LSH可行性和有效性。实验结果表明,算法SRAmplified-LSH比对比方法更加准确与高效。(3)本文从概率分析的角度进一步研究增强的LSH,并提出了改进的增强的LSH推荐算法SRchain-LSH。本文首先对LSH技术中概率与距离的关系进行了分析,再具体分析“AND-OR-OR-AND”增强策略下的概率与距离的关系。在该算法中,首先,利用LSH函数建立用户索引;再设计“AND-OR-OR-AND”增强策略来构造相似用户矩阵,提高相似用户检索的准确性与高效性;最后,根据相似用户的历史记录,为目标用户进行推荐。本文设计对比实验验证算法SRchain-LSH有效性。另外,将算法SRchain-LSH与算法SRAmplified-LSH进行了对比,实验结果表明,算法SRchian-LSH比算法SRAmplified-LSH具有更高的准确性和高效性;并且,算法SRchain-LSH更适合处理推荐中的数据稀疏问题。(4)本文设计并实现了一个基于B/S架构的电影推荐系统,将改进的增强的LSH推荐算法SRchain-LSH应用在该电影推荐系统中,以实现个性化推荐功能。在系统的设计中,本文分别对系统进行可行性分析、需求分析、系统总体架构设计、系统功能设计和系统数据库设计,最后利用Java语言实现系统各功能模块。
其他文献
互联网技术的快速发展,大数据时代的到来,随之而来的是网民规模的快速扩增及信息量的急速扩充。一方面,海量的信息满足了人们对生活中各个方面的需求,另一方面,大量混杂的信息使得用户无法及时准确的获取到所需信息,因此,人们在享受着大数据时代带给生活便利的同时也面临严重的“信息过载”问题。在这种情形下,推荐系统的出现成为解决信息过载问题有效的方式之一。推荐系统本质上是一个信息过滤系统,通过对用户历史行为的分
近年来,位置传感技术和无线传感器技术的发展激发了位置感知设备数量的显著增长,基于位置的服务(Location Based Server,LBS)也开始越来越受欢迎。在车联网(Internet of Vehicles,Io V)中LBS应用尤其广泛,车联网中的服务器不断获取大量的位置轨迹信息,这些信息包含用户大量的个人隐私数据,因此对车联网中车辆的轨迹数据进行保护是非常必要的。目前大多数的轨迹隐私保
随着5G、移动计算和智能设备等技术的发展与普及,各个领域涌现出了大量的物联网服务。如何从这些海量的物联网服务中找到符合自己需求的高质量物联网服务成了用户面临的挑战。服务推荐技术可以基于历史服务质量数据为用户推荐高质量的服务。然而,由于物联网服务存在着稳定性差、用户经常移动、重复调用等缺点,传统的服务推荐技术很难直接适用于物联网服务的推荐。另一方面,一个用户通常会调用不同厂家提供的物联网服务,用户调
随着高通量测序技术的发展,生物组学数据呈井喷式出现。对癌症组学数据进行深入研究可以挖掘到癌症发展过程中的重要信息,为癌症的诊断和治疗提供理论依据。癌症组学数据通常具有高维小样本的特点,整合的非负矩阵分解(Non-negative Matrix Factorization,NMF)方法可以对数据进行联合分析,从而发现多种类型数据之间的潜在关联。针对现有整合方法存在的流形学习能力不足、模型同质效应较差
随着生活水平的提高,人们的物质需求基本得到满足,安全需求日益凸显,建立温情社区,是提高居民安全感的有效方法,在老旧社区改造过程中,注重空间安全感的营造,能够加强居民之间的情感联系,更能提高居民的幸福感。论文对曲阜市沂河小区进行了多方面调研,使用针对该小区居民的随机问卷、深入访谈等方法,对沂河小区的物质及非物质现状进行调研。研究发现沂河小区物质环境破败、公共空间不足、物业管理混乱、居民类型复杂、居民
情感分析作为挖掘文本语料中用户情感倾向的方法,在当今社会的各个领域有着广泛应用。随着计算机技术的发展,人们不再满足于获取文本语料的粗糙情感倾向,而是希望得到基于属性或功能的细粒度情感倾向。因此,细粒度情感分析逐渐成为该领域的热点研究内容。数据规模扩大,情感语料库构建为词嵌入神经网络应用于细粒度情感分析提供了有利条件。基于双向Transformer编码器模型(Bidirectional Encode
随着物联网(Internet of Things,IoT)的发展,终端设备的数量也在迅速增加。设备会产生大量数据,这些数据具有多样性、实时性等特点。为缓解传统的云计算压力,边缘计算应运而生,它将数据处理下沉至设备边缘附近,可以实时处理靠近终端用户的数据,并且智能分流云任务。区块链技术的去中心化、防篡改和匿名性可以为边缘计算提供新的可信计算环境,同时边缘计算为区块链的可扩展性提供了可能,有助于打破区
高通量测序技术的发展产生了大量的生物组学数据,这些数据中往往包含着生物发展过程中的重要信息。单细胞RNA测序(Single-cell RNA sequencing,Sc RNA-seq)技术的快速发展使生物学家们可以在分子水平上对基因表达数据进行研究。Sc RNA-seq数据的出现也为组学数据的异质性研究提供了可能,对这些数据进行挖掘研究对疾病的诊断、治疗、预防以及探索细胞的分化过程有着重要意义。
随着比特币等各种加密货币以及应用技术的发展,区块链开始在诸多领域中受到越来越多的关注。区块链作为一种分布式账本系统,如何确保在互不信任的节点之间达成一致是它的一个关键问题。而作为区块链的一个重要组成构件,共识算法可以解决一致性问题,且其效率将直接决定了区块链系统的性能。DPoS共识算法因其相对较高的共识效率更易进行优化以满足商业应用环境的要求,从而拥有实际的应用价值与良好的发展前景。然而,在现有的
由于无线传感器网络(Wireless Sensor Networks,WSNs)自身能源的有限性以及网络环境的日益恶化,网络安全面临严峻挑战。攻击者冒充合法用户访问无线传感器网络、攻击网络内部节点、截取公开信道上传输的明文数据,这三种攻击行为给网络带来极大的危害。国内外学者在无线传感器网络安全上做了大量研究工作,但往往只针对单一的攻击行为展开研究。因此,针对上述三种攻击行为,本文从通信实体身份认证