【摘 要】
:
随着信息技术的发展,网络上数据以指数级在增长,出现信息过量的情况。这种状况使得用户不得不花费大量的时间和精力寻找有用的信息。在此背景下,推荐系统应用而生,帮助用户走
论文部分内容阅读
随着信息技术的发展,网络上数据以指数级在增长,出现信息过量的情况。这种状况使得用户不得不花费大量的时间和精力寻找有用的信息。在此背景下,推荐系统应用而生,帮助用户走出信息的海洋,快速找到有用的信息。当前,较为流行的推荐方法是协同过滤。该方法利用用户之间兴趣的相似性,对用户的偏好信息作出推荐。然而,随着数据的快速增长,协同过滤算法的计算效率越来越低。本文以此为出发点,采用并行计算中的云计算技术研究和实现协同过滤。云计算是并行技术的发展,可以有效解决复杂计算的计算效率问题。目前,较为流行的云计算平台是Hadoop,本文以其作为实现平台。在Hadoop平台上,要实现协同过滤的并行计算,关键在于解决计算过程中数据的相关性。本文以受限玻尔兹曼机模型和邻居模型为案例,在详细分析其计算过程的基础上,提出基于Hadoop平台的算法。该算法根据MapReduce框架的特点,将其计算过程拆分成若干个任务。在每个任务中,通过数据冗余的机制,将数据复制多份分配到每个需要的计算节点,从而解决计算过程中的数据相关性。同时,在多个任务的计算中,各个任务存在前后依赖的关系。在将协同过滤拆分为多个任务时,利用MapReduce提供的依赖组合式任务计算来解决任务之间的依赖关系,实现不同任务的并行计算。最后,本文在以大体量数据集为基础的实验中来验证其计算效率。实验结果表明,与在传统平台的实现相比,基于Hadoop并行架构的最近邻寻找推荐算法和受限玻尔兹曼机推荐算法,在大体量数据集的条件下可大幅提高推荐计算效率。
其他文献
图像分割一直都是高光谱技术研究中的一个热点。虽然目前已经有较多的图像分割算法,但大都针对具体的应用,在海面溢油区域划分问题上效果不理想。如果能有一种分割算法很好地
最近几年来,随着多层前馈脉冲神经网络监督学习研究的快速发展,越来越多的研究成果表明基于脉冲精确定时编码的脉冲神经网络是神经系统处理信息的基础。很多研究者借鉴传统人工
激光扫描测量技术是继GPS之后测绘领域诞生的一种高新测绘技术,能够快速高效地获取目标物体表面详细的三维空间信息,在数字城市、环境监测、交通仿真等领域为快速实现三维建
随着社会经济全球化发展,企业竞争由产品竞争转向市场竞争,市场竞争的关键在于争夺客户资源,如今,客户已经成为企业生存发展的重要资源。为了维持企业的长期发展,增加企业的
Euclidean最短路径(ESP)问题是计算几何领域的经典问题。本文针对LR可视多边形中ESP问题的求解算法研究,设计出一个简单、可行的求解算法,为解决一些实际应用问题(如巡视员问
科技的进步,推动农业机器人技术迅猛发展。在农业生产中,采摘是一个重要的环节,它的工作量约占整个工作量的一半以上。采摘机器人作为农业机器人的一个主要的类型,能够提高劳动生
Internet 的高速发展使得互联网逐渐渗透到人们的日常生活中,对社会的方方面面产生了深远的影响。权威机构的调查显示,互联网用户数量每年都在飞速递增,并且中国的网民数量
随着信息技术的高速发展,云计算已经成为了产业界、学术界以及政府等各界关注的焦点。至今为止,云计算凭借其自身的便利性、高效性和高扩展性等优势吸引了众多企业的目光。云
总体经验模态分解(Ensemble Empirical Mode Decomposition,简称EEMD)是针对经验模态分解(Empirical Mode Decomposition,简称EMD)中存在的模态混叠问题提出的一种非平稳信号
随着大数据量计算技术的发展,基于数据处理的应用受到广泛关注,而数据源的结构也显示出多样化的趋势,这些数据中不仅有传统的非实时的、静态结构化数据,还有很多实时的、动态产生