BigDataBench:开源的大数据系统评测基准

来源 :计算机学报 | 被引量 : 0次 | 上传用户:chenchenyaya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据系统的蓬勃发展催生了大数据基准测试的研究,如何公正地评价不同的大数据系统以及怎样根据需求选取合适的系统成为了热点问题.然而,应用领域的广泛性、数据类型的多样性和数据操作的复杂性使得大数据基准测试集的设计面临很大的挑战.现有的相关基准测试工作要么针对某一类特定的应用或软件栈,要么根据流行度主观地选择大数据负载,难以全面覆盖大数据的多样性和复杂性.针对现有工作的不足,文中讨论大数据评测基准需要满足的需求,并研制了一个跨系统、体系结构、数据管理3个领域的大数据基准测试开源程序集——BigDataBench.它覆盖5个典型的应用领域(搜索引擎、电子商务、社交网络、多媒体、生物信息学),包含结构化、半结构化、非结构化的数据类型,涵盖离线分析、交互式分析、在线服务、NoSQL这4种负载类型.目前包含14个真实数据集、3种类型的数据生成工具以及33个负载的不同软件栈实现.BigDataBench已广泛应用到学术界和工业界中,应用案例包括负载分析、体系结构设计、系统优化等.基于BigDataBench,中国信息通信研究院联合中国科学院计算技术研究所、华为等国内外知名公司和科研机构共同制定了国内首个工业标准的大数据平台性能评测标准.
其他文献
"随着自然科学领域中每一个划时代的发现,唯物主义也必然要改变自己的形式。"社会科学、社会运动、社会事变比自然科学错综复杂,也必然随着重大社会事变的到来更新自己的形式
从社会主义制度的建立到改革开放,再到中国特色社会主义新时代,几代中国共产党人为了建设社会主义现代化强国进行了艰苦不懈的探索。新中国成立70年来,中国不断深化对现代化
"话语权"即是自我表达的权利。它的形式包括言语、文字、行为等。网络语言充满了个性化自我表达方式,它的特殊性极大地突破了常规的修辞方式;网络公共话语空间的平等开放使得
基于专家控制系统的育苗大棚,以STC15F2K60S2系列单片机为核心处理器,采用包括总线拓扑结构、GSM短信报警、触屏监控、专家控制系统和网络远程监控等技术手段进行设计.详细阐
针对500 k V高肇HVDC高压直流滤波电容器的不平衡保护频繁动作引起的跳闸现象,现场进行滤波器的调谐特性、电流互感器的变比特性、以及高压电容器不平衡状态下的保护动作特性
近年来,抖音等社交媒体作为用户分享生活、发表意见、交流经验的工具和平台,在国内市场收割大量“粉丝”,广受用户欢迎。但和国内市场爆发出令人惊艳的传播张力相比,其海外传
该研究选取蛋白核小球藻为实验对象,考察头孢拉定和头孢他啶对该藻生长的影响以及该藻对2种抗生素的去除情况。结果表明,浓度范围为5~150 mg/L的头孢拉定、头孢他啶对蛋白核
对于我国特色社会主义理论而言,邓小平所提出的科学技术思想具有重要的意义,其发展经历了萌芽、初步形成、成熟等阶段。提出了"科学技术是第一生产力"、"科学技术与经济建设
环境法治的形成应遵循法学以利益为核心的研究路径,推动生态利益法治化的进程。环境风险高发期的到来,使关涉生存权与发展权的生态利益得以彰显,以其内蕴之基础性、正当性、
随着制芯、造型、熔化生产流水线自动化程度越来越高,制芯已经不再是过去那种独立的作业环节,砂芯的制造时刻影响着整个生产线的生产效率。因此,射芯的生产效率必然被提上日