论文部分内容阅读
【摘要】 在我国经济高速发展的今天,我国经济建设推动信息化产业高速运行,目前已经渗透进我国各行各业的生产活动中,人们日常生活也离不开信息化产品。在这种背景下,大数据平台也成为科学技术重要角色。本文针对数据门户产品进行分析,并对数据门户产品建设作出研究,促进企业等机构利用数据化产品,旨在提高企业工作效率与质量,为我国经济健康发展提供奠定基础。
【关键词】 数据产品 大数据平台 成果展示
引言:
我国正在大跨步走向信息化时代,社会对于信息产品需求也逐渐提高。而以基础框架与各类模块数据门户产品,因为其适用性较强,所以被企业、社会广泛使用。还可以根据用户需求制定不同模块内容,受到用户一致好评。所以,将数据门户产品详细剖析,分析其基本原理与内容结构,并采用适当方法对其进行建设,可以有效提高企业核心竞争力,提高我国整体科技水平。
一、数据门户产品的相关概述
1.1 内存计算产品
内存计算产品(In-Memory Computing),准确分析是作为一种技术构架存在,但是为内存计算技术提供信息处理的平台却具有大数据特性,可以认为其是数据门户产品中一类。
例如Spark,基于hadoop分布式文件存储数据,将数据存储工作交给HDFS,专注与信息处理环节。以数据计算为主要内容,提供交叉查询与负载优化等功能。目前使用Spark内存计算技术为Databricks云,主要负责大数据处理相关工作,高效发挥Spark计算能力,为常见工作内容优化流程提供必要初始程序[1]。
而HANA为用户提供内存计算相关引擎,同时提供基于HANA的建模工具,可以从SAP公司商务配套软件或产品中直接导入第三方数据内容,数据信息处理后,可以将其传送到SAP BI客户端进行完整重现,降低客户数据处理所需时间,有效提高数据处理工作质量。其他内存计算产品也是以高速信息处理,准确数据分析为主要发展方向,提供海量数据存储条件,增加用户黏性。
1.2 hadoop发行版
利用分布式计算机MapReduce,HBase数据库,Hive引擎构建的hadoop生态系统,现已成为目前主要数据应用技术体系。包括华为,IBM等互联网与IT厂商,都加入hadoop生态圈,并推出各家企业商用hadoop发行版本,在对hadoop开源社区兼容性,应用安全性等都具有不同特色,可以实现批量处理信息数据,部分企业还在实时数据信息处理有较强建树[2]。
作为目前应用最为广泛、最典型大数据处理平台,不仅可以实现对海量数据高速处理,安全存储,也可以实现高效管理与监控复杂集群。而hadoop发行版的部分内容因为性能优秀,在实际应用中表现良好性质,也被hadoop开源社区吸收采纳,增加hadoop生态系统完善性与多样性,对后续企业使用提供便利性。
1.3 大数据平台及产品分析
开源hadoop系统在开发环节存在自身携带问题,无法满足企业商业应用需求,例如在图形管理工具方面欠缺,会对工作效率大幅度降低。而hadoop发行版不仅与开源hadoop系统具有较高兼容性,也可以根据企业需求增添管理与应用模块,对开源hadoop方案进行优化升级,进行合理改造;Spark擁有实时查询功能,在流计算方面变现良好。而hadoop的核心内容,分布式计算架构MapReduce可以对海量数据进行批量式计算。
在Spark日益成熟,行业许多hadoop发行版都会将Spark融入其中,未来两者极有可能走向相互融合。相较于基于RDBS关系构建数据库,一体化平台无论是性能、可拓展性等方面都有较大突破。而在以往SQL接口支持、ET/BI上下游软件兼容性等薄弱方面,经过近些年发展,部分核心内容已经得到有效突破,拥有良好进展情况。而我国地域辽阔,人口众多,每天会产生海量数据信息,实时交流软件腾讯,购物平台阿里,信息发布平台微博等,都开始将技术研发专项大数据处理方面,未来中国大数据平台与产品领域将是科技发展主要方向。
二、数据门户产品建设研究
2.1 基本概念与参考的模型
根据维基百科定义,大数据即无法使用常规工具,在可接受时间范围内,有效进行捕获处理的数据集合形式。在科技逐渐发展的现在,大数据则被描述为无法使用传统数据处理产品处理的海量数据。
大数据技术并不仅限于可以迅速掌握庞大数据信息内容,重点为如何对数据在短时间内进行有效专业化处理。大数据类型分为结构化、半结构化与非结构化三种,目前全球多数企业处理信息数据多为半结构化数据,并且以每年60%速度稳定递增。
而数据门户产品就是基于大数据背景下,融合相关软件硬件,构成平台处理一体化功能系统产品。网络加速模块、数据存储单元共同构成大数据硬件基础设置,而分布式文件系统与其计算系统,内存数据库和大数据应用中间件构成大数据处理工具,拥有监控功能,提供数据访问渠道的平台管理系统,实现深度学习与精准预测的大数据应用,共同构成大数据平台软件硬件产品[3]。
其中,在大数据硬件基础设施与平台管理系统之间,还有例如分布式资源管理、协作服务,以及数据备份与恢复工具。
2.2 标准化的思路
2.2.1 平台总体架构
虽然信息技术行业推出多种大数据平台,涉及到大数据内容的相关产品数量更是无法有效统计。但是从宏观角度审视,这些大数据平台与产品却存在一个问题,即水平参差不齐,难以真正推动我国科学技术稳定发展。
许多平台应用子模块仅是将hadoop开源项目的部分内容改动,或者进行差异化演进,并没有完全对大数据发展提供充足动力。 所以,对于平台总体进行标准化构建,就需要对子模块内容、数量进行确认。并对在什么大数据背景下可以被称作大数据平台,这种基础性概念明确。产品术语称呼,应用场景等内容也需要考虑到平台总体标准化构建当中[4]。
2.2.2 基础子模块
确定大数据平台总体框架后,还需要明确应用技术框架。紧接着,对数据门户产品基础子模块进行标准化规定。基础子模块包括分布式计算系统、文件系统,都需要进行分别规范,除接口规范、应用技术框架等可能与其他工程领域存在重复风险,其余内容并不涉及其他领域,所以可以对其命名与应用制定专属化标准,促进大数据平台构建标准化作业。在对基础子模块建立相应标准时,要考虑到以大多数应用群体为主,是否对模块命名或制定标准是否符合当前用户实际作业情况。要在综合全面对标准制定是否合规合理后,再进行基础子模块制定相关工作。
2.2.3 扩展子模块
扩展子模块标准化,主要针对数据容错与备份、大数据应用等环节。因为这部分拓展子模块具有互通性,所以会与各种领域或多或少存在标准制定重复风险。所以,应该从现有子模块制定标准基础上,对部分标准进行近更新,或者视情况重新制定。
但是对于数据挖掘算法库等大数据应用中间件,以及管理运维产品接口规范等扩展子模块,不建议重新制定相关标准[5]。
考虑到未来系统会呈现多样化功能,所以要在数据门户产品中预留一定可拓展空间,方便后续拓展子模块增添与拆卸。这部分拓展子模块无法确认具体形式、工作特性,所以只需要做好标准化接口制定即可。
同理,即使现在应用的扩展子模块,也需要对备用模块做好制定标准化,避免在子模块更换时,因协议、接口不匹配,造成产品使用出现问题。
三、数据门户产品建设中的成果展示
为拓展大数据应用层面,数据门户产品建设也逐渐趋于完善。例如接收借助大数据的5v特性,即体量(Volume)、多样(Variety)、时效(Velocity)、准确(Veracity)与价值(Value),对ETL工具实现变革,成为在大数据时代下的ETL工具。
例如可以有效管理海量日志文件的Splunk,就是出名大数据ETL工具;而大数据BI软件相较于传统BI软件,可以实现对TB级别数据实时分析,降低信息处理所需时间。而且在大数据BI软件应用程度不断加深,也为人们提供一种大数据背景下的可视化工具,让系统运行更加透明、规范;为保障用户信息安全,保护企业信息不发生泄漏现象,从隐私保护、漏洞检测等方面考虑的大数据安全工具正成为市场重点关注对象,例如Splunk Enterprise Security等就是典型大数据安全保护工具。而且,对于数据门户产品制定标准,虽然在数据库与非结构数据管理方面有完善标准,但是对于大数据可视化工具等却没有明确标准。尤其是开放数据集等新型产品,当前运行效果一般,导致标准制定相对模糊。
我国对于大数据平台标准设置,对产品标准研制则集中在导入接口、大数据存储与处理凭条、分析系统等几个方面,以华为公司为代表的各类国内公司承担相关工作。目前已经取得突破性进展,部分标准制定已经被国际各种企业所承认,其余标准制定工作也逐渐被提上日程。
四、结束语
综上,对于数据门户产品建设工作要保持长久发展,对技术及时更新换代,避免出现获得短期成果而忽略产品维护工作。
除对产品进行常规维护外,还要积极总结用户反馈,对产品内容与框架适度调整,从而满足用户实际需求。可以为数据门户产品扩宽应用模块,增强其综合能力,为用户提供更良好使用体验。也要建立起相应风险应对机制,保障在数据门户产品出现问题时,及时修复,避免造成严重损失。
参 考 文 献
[1]李小洁. 基于用户行为数据的高校图书馆门户网站建设研究[J]. 山东图书馆学刊, 2020, 000(002):46-51.
[2]王祎, 張辉, 陈延风. 美国政府数据开放网站管理体系研究及启示[J]. 中国科技资源导刊, 2020, 52;541(01):18-22+93.
[3]朱丽娜. 高校智慧图书馆建设路径探讨[J]. 科学与信息化, 2020, 000(001):40-41.
[4]潘见独、李慧、顾锋. 从免费到收费:双边信息产品平台的版本划分策略研究[J]. 研究与发展管理, 2020, 32(05):62-71.
[5]邓玲,顾颖,蔡潇. “互联网+政务服务”环境下政务App建设的探索与研究——以江苏省N市政务App为例[J]. 改革与开放, 2020.
【关键词】 数据产品 大数据平台 成果展示
引言:
我国正在大跨步走向信息化时代,社会对于信息产品需求也逐渐提高。而以基础框架与各类模块数据门户产品,因为其适用性较强,所以被企业、社会广泛使用。还可以根据用户需求制定不同模块内容,受到用户一致好评。所以,将数据门户产品详细剖析,分析其基本原理与内容结构,并采用适当方法对其进行建设,可以有效提高企业核心竞争力,提高我国整体科技水平。
一、数据门户产品的相关概述
1.1 内存计算产品
内存计算产品(In-Memory Computing),准确分析是作为一种技术构架存在,但是为内存计算技术提供信息处理的平台却具有大数据特性,可以认为其是数据门户产品中一类。
例如Spark,基于hadoop分布式文件存储数据,将数据存储工作交给HDFS,专注与信息处理环节。以数据计算为主要内容,提供交叉查询与负载优化等功能。目前使用Spark内存计算技术为Databricks云,主要负责大数据处理相关工作,高效发挥Spark计算能力,为常见工作内容优化流程提供必要初始程序[1]。
而HANA为用户提供内存计算相关引擎,同时提供基于HANA的建模工具,可以从SAP公司商务配套软件或产品中直接导入第三方数据内容,数据信息处理后,可以将其传送到SAP BI客户端进行完整重现,降低客户数据处理所需时间,有效提高数据处理工作质量。其他内存计算产品也是以高速信息处理,准确数据分析为主要发展方向,提供海量数据存储条件,增加用户黏性。
1.2 hadoop发行版
利用分布式计算机MapReduce,HBase数据库,Hive引擎构建的hadoop生态系统,现已成为目前主要数据应用技术体系。包括华为,IBM等互联网与IT厂商,都加入hadoop生态圈,并推出各家企业商用hadoop发行版本,在对hadoop开源社区兼容性,应用安全性等都具有不同特色,可以实现批量处理信息数据,部分企业还在实时数据信息处理有较强建树[2]。
作为目前应用最为广泛、最典型大数据处理平台,不仅可以实现对海量数据高速处理,安全存储,也可以实现高效管理与监控复杂集群。而hadoop发行版的部分内容因为性能优秀,在实际应用中表现良好性质,也被hadoop开源社区吸收采纳,增加hadoop生态系统完善性与多样性,对后续企业使用提供便利性。
1.3 大数据平台及产品分析
开源hadoop系统在开发环节存在自身携带问题,无法满足企业商业应用需求,例如在图形管理工具方面欠缺,会对工作效率大幅度降低。而hadoop发行版不仅与开源hadoop系统具有较高兼容性,也可以根据企业需求增添管理与应用模块,对开源hadoop方案进行优化升级,进行合理改造;Spark擁有实时查询功能,在流计算方面变现良好。而hadoop的核心内容,分布式计算架构MapReduce可以对海量数据进行批量式计算。
在Spark日益成熟,行业许多hadoop发行版都会将Spark融入其中,未来两者极有可能走向相互融合。相较于基于RDBS关系构建数据库,一体化平台无论是性能、可拓展性等方面都有较大突破。而在以往SQL接口支持、ET/BI上下游软件兼容性等薄弱方面,经过近些年发展,部分核心内容已经得到有效突破,拥有良好进展情况。而我国地域辽阔,人口众多,每天会产生海量数据信息,实时交流软件腾讯,购物平台阿里,信息发布平台微博等,都开始将技术研发专项大数据处理方面,未来中国大数据平台与产品领域将是科技发展主要方向。
二、数据门户产品建设研究
2.1 基本概念与参考的模型
根据维基百科定义,大数据即无法使用常规工具,在可接受时间范围内,有效进行捕获处理的数据集合形式。在科技逐渐发展的现在,大数据则被描述为无法使用传统数据处理产品处理的海量数据。
大数据技术并不仅限于可以迅速掌握庞大数据信息内容,重点为如何对数据在短时间内进行有效专业化处理。大数据类型分为结构化、半结构化与非结构化三种,目前全球多数企业处理信息数据多为半结构化数据,并且以每年60%速度稳定递增。
而数据门户产品就是基于大数据背景下,融合相关软件硬件,构成平台处理一体化功能系统产品。网络加速模块、数据存储单元共同构成大数据硬件基础设置,而分布式文件系统与其计算系统,内存数据库和大数据应用中间件构成大数据处理工具,拥有监控功能,提供数据访问渠道的平台管理系统,实现深度学习与精准预测的大数据应用,共同构成大数据平台软件硬件产品[3]。
其中,在大数据硬件基础设施与平台管理系统之间,还有例如分布式资源管理、协作服务,以及数据备份与恢复工具。
2.2 标准化的思路
2.2.1 平台总体架构
虽然信息技术行业推出多种大数据平台,涉及到大数据内容的相关产品数量更是无法有效统计。但是从宏观角度审视,这些大数据平台与产品却存在一个问题,即水平参差不齐,难以真正推动我国科学技术稳定发展。
许多平台应用子模块仅是将hadoop开源项目的部分内容改动,或者进行差异化演进,并没有完全对大数据发展提供充足动力。 所以,对于平台总体进行标准化构建,就需要对子模块内容、数量进行确认。并对在什么大数据背景下可以被称作大数据平台,这种基础性概念明确。产品术语称呼,应用场景等内容也需要考虑到平台总体标准化构建当中[4]。
2.2.2 基础子模块
确定大数据平台总体框架后,还需要明确应用技术框架。紧接着,对数据门户产品基础子模块进行标准化规定。基础子模块包括分布式计算系统、文件系统,都需要进行分别规范,除接口规范、应用技术框架等可能与其他工程领域存在重复风险,其余内容并不涉及其他领域,所以可以对其命名与应用制定专属化标准,促进大数据平台构建标准化作业。在对基础子模块建立相应标准时,要考虑到以大多数应用群体为主,是否对模块命名或制定标准是否符合当前用户实际作业情况。要在综合全面对标准制定是否合规合理后,再进行基础子模块制定相关工作。
2.2.3 扩展子模块
扩展子模块标准化,主要针对数据容错与备份、大数据应用等环节。因为这部分拓展子模块具有互通性,所以会与各种领域或多或少存在标准制定重复风险。所以,应该从现有子模块制定标准基础上,对部分标准进行近更新,或者视情况重新制定。
但是对于数据挖掘算法库等大数据应用中间件,以及管理运维产品接口规范等扩展子模块,不建议重新制定相关标准[5]。
考虑到未来系统会呈现多样化功能,所以要在数据门户产品中预留一定可拓展空间,方便后续拓展子模块增添与拆卸。这部分拓展子模块无法确认具体形式、工作特性,所以只需要做好标准化接口制定即可。
同理,即使现在应用的扩展子模块,也需要对备用模块做好制定标准化,避免在子模块更换时,因协议、接口不匹配,造成产品使用出现问题。
三、数据门户产品建设中的成果展示
为拓展大数据应用层面,数据门户产品建设也逐渐趋于完善。例如接收借助大数据的5v特性,即体量(Volume)、多样(Variety)、时效(Velocity)、准确(Veracity)与价值(Value),对ETL工具实现变革,成为在大数据时代下的ETL工具。
例如可以有效管理海量日志文件的Splunk,就是出名大数据ETL工具;而大数据BI软件相较于传统BI软件,可以实现对TB级别数据实时分析,降低信息处理所需时间。而且在大数据BI软件应用程度不断加深,也为人们提供一种大数据背景下的可视化工具,让系统运行更加透明、规范;为保障用户信息安全,保护企业信息不发生泄漏现象,从隐私保护、漏洞检测等方面考虑的大数据安全工具正成为市场重点关注对象,例如Splunk Enterprise Security等就是典型大数据安全保护工具。而且,对于数据门户产品制定标准,虽然在数据库与非结构数据管理方面有完善标准,但是对于大数据可视化工具等却没有明确标准。尤其是开放数据集等新型产品,当前运行效果一般,导致标准制定相对模糊。
我国对于大数据平台标准设置,对产品标准研制则集中在导入接口、大数据存储与处理凭条、分析系统等几个方面,以华为公司为代表的各类国内公司承担相关工作。目前已经取得突破性进展,部分标准制定已经被国际各种企业所承认,其余标准制定工作也逐渐被提上日程。
四、结束语
综上,对于数据门户产品建设工作要保持长久发展,对技术及时更新换代,避免出现获得短期成果而忽略产品维护工作。
除对产品进行常规维护外,还要积极总结用户反馈,对产品内容与框架适度调整,从而满足用户实际需求。可以为数据门户产品扩宽应用模块,增强其综合能力,为用户提供更良好使用体验。也要建立起相应风险应对机制,保障在数据门户产品出现问题时,及时修复,避免造成严重损失。
参 考 文 献
[1]李小洁. 基于用户行为数据的高校图书馆门户网站建设研究[J]. 山东图书馆学刊, 2020, 000(002):46-51.
[2]王祎, 張辉, 陈延风. 美国政府数据开放网站管理体系研究及启示[J]. 中国科技资源导刊, 2020, 52;541(01):18-22+93.
[3]朱丽娜. 高校智慧图书馆建设路径探讨[J]. 科学与信息化, 2020, 000(001):40-41.
[4]潘见独、李慧、顾锋. 从免费到收费:双边信息产品平台的版本划分策略研究[J]. 研究与发展管理, 2020, 32(05):62-71.
[5]邓玲,顾颖,蔡潇. “互联网+政务服务”环境下政务App建设的探索与研究——以江苏省N市政务App为例[J]. 改革与开放, 2020.