论文部分内容阅读
Hadoop是实现云计算事实标准的开源软件,它包含数十个具有生命力的子项目,构造的数据集群能在数千个节点上运行,处理的数据量和排序时间不断打破世界记录。它的核心为分布式文件系统(HDFS)和MapReduce编程模型,能够解决海量数据需求、分析、处理和挖掘及数据的长期保存。可使用大量的廉价PC机通过集群来代替价格昂贵的服务器,使云计算硬件成本大大降低,用户能够按需获取计算力、存储空间和信息服务。