【摘 要】
:
随着互联网的蓬勃发展,人们已经走进了大数据时代。互联网用户如何从海量的数据中的快速有效地搜索有价值的数据,提高信息获取的效率,已经成为个性化推荐领域面临的巨大挑战
论文部分内容阅读
随着互联网的蓬勃发展,人们已经走进了大数据时代。互联网用户如何从海量的数据中的快速有效地搜索有价值的数据,提高信息获取的效率,已经成为个性化推荐领域面临的巨大挑战。近几年来,个性化推荐技术在国内外迅速崛起并广泛应用于电子商务、视频音乐等领域的站点,它不仅是互联网公司一直在努力攻克的技术难题,也是很多研究机构的重要研究方向。传统的推荐系引擎多是集中式单一节点的架构,处理能力有限,扩展性差,不适合应用于大规模数据分析和处理。目前,改善单个节点推荐算法扩展性问题的方法有很多,虽然在一定程度上提高了算法扩展性,但是有限的硬件计算能力远不能满足日渐增长的处理需求。云计算的出现为这一问题的解决提供了新的思路。当前,基于分布式并行处理架构的推荐引擎己成为当前研究和应用的热点。针对传统协同过滤推荐算法的扩展性瓶颈和分布式算法的效率问题,本文设计了一个基于Hadoop平台的分布式协同过滤推荐系统。协同过滤推荐的经典代表是基于用户的协同过滤推荐和加权Slope-one推荐。本文结合分布式数据库HBase、分布式文件系统HDFS和分布式并行计算框架MapReduce对这两种协同过滤推荐算法进行分布式实现,并使用HBase优化实现流程,提高算法效率。本系统不仅支持海量稀疏性数据存储与分析,而且有效地提高了协同过滤推荐算法的可扩展性,并提供与用户的实时交互功能。基于对HBase上MapReduce任务数据本地化问题的分析,本文提出了一种HBase的两级负载均衡策略。该策略通过迁移节点上超载的Region,解决了表的Region集中分布的问题,在保证节点负载均衡的同时,确保每张表的Region在各个节点上平均分布,有效地提高了对表进行MapReduce操作时的数据本地化任务比例。本文提出的分布式推荐算法解决了传统的协同过滤推荐算法难以扩展的问题,为海量数据下的协同过滤推荐提供了解决方案,具有一定的借鉴意义。
其他文献
自从中国加入了 WTO并成为成员国,从事项目经济评价的工程技术人员就开始进行项目的后评价工作。于20世纪30年代的美国是项目后评价的起源,目前在世界发达国家已被广泛应用。
伴随中国经济的发展、经济全球化的加深、“走出去”政策的鼓励支持和中国企业的国际竞争能力增强,中国企业的国际化进程加速。近些年来,以智能化、电动化、互联化、轻量化为特点的新一轮汽车科技革命正在如火如茶的发展,传统汽车产业迎来新的机遇与变革。作为《中国制造2025》十大重点领域之一,新能源汽车产业的发展不仅代表世界汽车产业的发展大方向,更是对中国实现产业升级、节能减排和供给侧结构性改革等目标具有重要意
基于2011—2015年茹河彭阳水质监测断面的水质数据,采用物元分析法对其断面水质进行评价;建立适用于该监测断面的马尔可夫预测模型对断面水质类别进行预测;同时依据平稳分布
中国正在设计建造中国的第一个核聚变反应堆——中国聚变工程实验堆(China Fusion Engineering Test Reactor, CFETR),中子活化分析在中国聚变工程实验堆的评估检验中起着重
目的:利用动态姿势平衡仪(Smart Equitest Balance Master)对偏瘫患者的平衡功能进行客观,准确量化的评估,同时对比运用此系统训练患者的平衡功能与传统平衡训练的康复疗效。
目前,我国农业正处于传统农业向现代农业过渡的转型时期。如何在工业化、城镇化、信息化深入发展中同步实现农业现代化,是我国国民经济和社会发展的一项任重而道远的战略性任
财务尽调是全面了解企业经营状况和盈利能力的重要手段,在企业IPO、发行债券及兼并收购中占重要地位。财务尽调内容和质量,对于决策的管理层至关重要,本文从财务尽调内容做一
CFETR装置堆芯部件含有剧毒物质铍,容易混进尘埃吸附在部件表面并且很容易飘到空气中;大量中子和伽马射线也会引发一些材料的活化。因此为了避免放射性污染扩散到大厅内,堆芯
司法裁判不仅要面对当事人,而且要面对全社会,接受全体法律人和社会公众的检验,这就要求在裁判文书中不仅要展现法庭调查和法庭辩论的全过程,彰显程序正义,而且要展现证据采信、事
“历史记录的是过去的历史人物、历史事件、历史场景,远离现在,因而与现实有隔离感,使得传统的历史课堂无法摆脱抽象乏味的历史说教”。在教学的过程中,如果我们能合理运用多