论文部分内容阅读
摘要:由于在大数据处理中应用了多种技术手段,大数据处理具有极强的综合性。因为大数据在应用过程中产生的大多数问题都与电脑行业存在非常密切的联系,所以大数据具备了极强的应用需求驱动性,需要与电脑领域进行有效的融合,从而更好实现大数据的社会价值与商业价值。当前必须提升对大数据的认知,并加强对该领域的研究。
关键词:融合思想;云计算;大数据处理
1基于融合思想的大数据整合方案
在云计算环境下,人机交互技术、数据处理技术、采集处理技术等技术始终处于一种深度融合的状态。融合思想的出发点就是将云环境下的处于分散状态的采集资源以协同的方式组织起来,然后进行融合,充分发挥各种分散状态下资源的比较优势。作为一种有机整合各种比较优势的思想,融合式的整合方案具有广阔的应用前景。在云计算环境之下,大数据处理的研究主要着眼于大数据处理系统的建设、分散式数据的协同方式以及附属关键技术等。从宏观而言,可以简单地把上述着眼点划分为混合处理以及混合管理2个方面:混合管理的研究点主要基于各种有线无线的处理机制、数据共享机制、处理资源共享机制、分散数据管理机制、处理同步机制等,而混合处理主要着眼于系统运行模型及相关的支持技术上。
融合思想是解决当前云计算相关问题的一种前沿性思想,在大数据处理模型上,主要研究的是大数据组成因子的协作、共同完成大数据处理的模式,涉及到成员间如何开展工作,协作时如何进行交互、操作协调、协作推进和结束协作等,主要包含会话模型、会议模型、过程模型、活动模型和层次模型。会话模型是各因子间沟通和动作协调的基础,通过特定的言语行为(如请求、许诺等)的執行来完成。会议模型是群体进行协同工作的另一种基本形式,参与者通过共享的信息空间彼此沟通,共同完成任务。过程模型将复杂的任务分成一个个小的操作步骤,活动模型对过程模型进一步扩充,将任务分成目标明确的子任务,定义子任务之间的关系,并通过任务的协同处理来完成任务。
2大数据处理的应用分析
在云环境中,由于大数据在云环境下的组成因子间的架构、大小等可能存在着巨大的差异。抽象后的处理架构包含的基本组成因子有:处理成员的权限、公用处理资源、处理事件和处理活动。处理成员的权限描述了某一处理数据流在系统内部的操作和处理权限,根据处理需要对数据流进行合流的划片和分级来赋予相应的权限;公用处理资源描述了云环境下的各子云所共用的处理信道、信令以及指挥处理机制;处理活动描述了处理过程中的发送、处理、接收过程中的全部动态行为的总体性特征;处理事件描述了处理活动中的处理进度、指标的集合,用于协调各因子间的行为。目前,大数据处理主要着眼于应用系统的建设,主要的解决思路围绕着以下的3点展开:
(1)融合式架构实际上是一种客户/服务器架构、服务器集中负责整个应用系统的管理、控制和调度,以及所有与具体应用相关的程序逻辑、数据等,客户端指用户交互的输入输出。当用户要执行相关任务时,需要通过客户端向服务器发出请求,由服务器完成相对应的任务。融合式的协同应用架构实现简单、容易维护,但协同应用对服务器有较强的依赖,很容易成为整个系统的瓶颈。
(2)分散式架构中,协同控制的节点均处于同等地位,与系统相关的控制和管理模块分散在客户端。客户端较好地实现了系统的自治,其鲁棒性、灵活性、开放性和通用性都比较好,但数据的分布存储和各自操作,使得全局的一致性较难维护,节点间的实时性同步以及用户的动态注册也较难实现。
(3)混合式结构结合了前两种结构的优点,由服务器实现数据信息的一致性维护、用户管理和信息的转发与分发等功能,由客户端实现与用户的交互。这种结构充分利用了客户端的资源,极大地减轻了服务器的工作压力,减轻了服务器的“瓶颈”效应,既能使系统具有较好的灵活性、鲁棒性和较短的响应时间,又保证了系统信息的一致性。
3大规模 RDF 语义数据存储管理技术与系统
3.1 RDF 数据索引机制与索引数据存放策略
3.1.1 查询空间
通常情况下,RDF 三元组数据库在记录数据的过程中,往往会采取索引技术,从而进一步提升查询时三元组配对成功的概率。当前RDF 三元组数据库设计的索引方案,全部都是以标准数据库为基础进行相关的设计,因而要重点分析 RDF数据之间的相关性、结构方面的特性。将运用最频繁的三元组查询模式做为基础,构建出更为高效的索引机制,进一步提升查询速度,从而保证大部分SPARQL 查询的响应性能达到最佳效果。
3.1.2 索引策略
字符串是RDF三元组主谓宾成分的主要表现形式,通常情况下,字符串会相对较长。为了使实际RDF数据的存储空间得到进一步压缩,Rainbow系统中RDF三元组中的主谓宾成分的索引数据需要以哈希表方式为基础,进行相关的维护管理工作,这点与部分RDF三元组数据库基本一致。在经过编码压缩之后,RDF三元组的存储空间与原来相比显著缩减,而且还能节约内存和磁盘的储存空间,避免了中间结果存储所增加的数据存储量。此外,在查询的过程中,中间结果仍然依赖于采集进行传输,因而中间结果集的大大缩减,能够有效减少采集所需要传输量,而且查询的整体性能将会得到提升。
3.2 分布式层次化索引数据存储管理方法
因为Hadoop大数据处理技术生态系统的应用越来越普遍,并且也成为大数据存储管理的工业化指标,所以在实际的应用中,大多数分布式RDF三元数据库都将HBase这一系统作为底层大规模RDF数据的存储平台,这也是HBase系统可拓展性和容错性的重要表现。以分布式层次化为基础的索引存储管理机制,能够更好完成RDF数据的查询、存储等。
结语:
在宽带互联网接入技术及智能终端高速普及的今天,采集数据容量以及处理数据量/数据强度的增加速度大大快于任何一个时期;大数据时代已经悄然来临。大数据时代是伴随着云技术的发展而来的,如何在云环境下进行安全、有效、准确的大数据处理,成为人们研究的一个热点领域。
参考文献:
[1]李程.基于大数据处理技术的防范信息诈骗系统探讨[J].广东通信技术,2017,37(10):44-48.
[2]许杰,冷冰,李明桂,丁文超.大数据处理技术在安全审计系统中的应用[J].通信技术,2016,49(03):346-351.
[3]任梁.试论云计算技术下的大数据处理系统[J].电子技术与软件工程,2014(16):27.
[4]王书海,张婧.基于SQL Server应用系统的大数据量实时处理技术[J].实验室研究与探索,2008(03):16-18+85.
关键词:融合思想;云计算;大数据处理
1基于融合思想的大数据整合方案
在云计算环境下,人机交互技术、数据处理技术、采集处理技术等技术始终处于一种深度融合的状态。融合思想的出发点就是将云环境下的处于分散状态的采集资源以协同的方式组织起来,然后进行融合,充分发挥各种分散状态下资源的比较优势。作为一种有机整合各种比较优势的思想,融合式的整合方案具有广阔的应用前景。在云计算环境之下,大数据处理的研究主要着眼于大数据处理系统的建设、分散式数据的协同方式以及附属关键技术等。从宏观而言,可以简单地把上述着眼点划分为混合处理以及混合管理2个方面:混合管理的研究点主要基于各种有线无线的处理机制、数据共享机制、处理资源共享机制、分散数据管理机制、处理同步机制等,而混合处理主要着眼于系统运行模型及相关的支持技术上。
融合思想是解决当前云计算相关问题的一种前沿性思想,在大数据处理模型上,主要研究的是大数据组成因子的协作、共同完成大数据处理的模式,涉及到成员间如何开展工作,协作时如何进行交互、操作协调、协作推进和结束协作等,主要包含会话模型、会议模型、过程模型、活动模型和层次模型。会话模型是各因子间沟通和动作协调的基础,通过特定的言语行为(如请求、许诺等)的執行来完成。会议模型是群体进行协同工作的另一种基本形式,参与者通过共享的信息空间彼此沟通,共同完成任务。过程模型将复杂的任务分成一个个小的操作步骤,活动模型对过程模型进一步扩充,将任务分成目标明确的子任务,定义子任务之间的关系,并通过任务的协同处理来完成任务。
2大数据处理的应用分析
在云环境中,由于大数据在云环境下的组成因子间的架构、大小等可能存在着巨大的差异。抽象后的处理架构包含的基本组成因子有:处理成员的权限、公用处理资源、处理事件和处理活动。处理成员的权限描述了某一处理数据流在系统内部的操作和处理权限,根据处理需要对数据流进行合流的划片和分级来赋予相应的权限;公用处理资源描述了云环境下的各子云所共用的处理信道、信令以及指挥处理机制;处理活动描述了处理过程中的发送、处理、接收过程中的全部动态行为的总体性特征;处理事件描述了处理活动中的处理进度、指标的集合,用于协调各因子间的行为。目前,大数据处理主要着眼于应用系统的建设,主要的解决思路围绕着以下的3点展开:
(1)融合式架构实际上是一种客户/服务器架构、服务器集中负责整个应用系统的管理、控制和调度,以及所有与具体应用相关的程序逻辑、数据等,客户端指用户交互的输入输出。当用户要执行相关任务时,需要通过客户端向服务器发出请求,由服务器完成相对应的任务。融合式的协同应用架构实现简单、容易维护,但协同应用对服务器有较强的依赖,很容易成为整个系统的瓶颈。
(2)分散式架构中,协同控制的节点均处于同等地位,与系统相关的控制和管理模块分散在客户端。客户端较好地实现了系统的自治,其鲁棒性、灵活性、开放性和通用性都比较好,但数据的分布存储和各自操作,使得全局的一致性较难维护,节点间的实时性同步以及用户的动态注册也较难实现。
(3)混合式结构结合了前两种结构的优点,由服务器实现数据信息的一致性维护、用户管理和信息的转发与分发等功能,由客户端实现与用户的交互。这种结构充分利用了客户端的资源,极大地减轻了服务器的工作压力,减轻了服务器的“瓶颈”效应,既能使系统具有较好的灵活性、鲁棒性和较短的响应时间,又保证了系统信息的一致性。
3大规模 RDF 语义数据存储管理技术与系统
3.1 RDF 数据索引机制与索引数据存放策略
3.1.1 查询空间
通常情况下,RDF 三元组数据库在记录数据的过程中,往往会采取索引技术,从而进一步提升查询时三元组配对成功的概率。当前RDF 三元组数据库设计的索引方案,全部都是以标准数据库为基础进行相关的设计,因而要重点分析 RDF数据之间的相关性、结构方面的特性。将运用最频繁的三元组查询模式做为基础,构建出更为高效的索引机制,进一步提升查询速度,从而保证大部分SPARQL 查询的响应性能达到最佳效果。
3.1.2 索引策略
字符串是RDF三元组主谓宾成分的主要表现形式,通常情况下,字符串会相对较长。为了使实际RDF数据的存储空间得到进一步压缩,Rainbow系统中RDF三元组中的主谓宾成分的索引数据需要以哈希表方式为基础,进行相关的维护管理工作,这点与部分RDF三元组数据库基本一致。在经过编码压缩之后,RDF三元组的存储空间与原来相比显著缩减,而且还能节约内存和磁盘的储存空间,避免了中间结果存储所增加的数据存储量。此外,在查询的过程中,中间结果仍然依赖于采集进行传输,因而中间结果集的大大缩减,能够有效减少采集所需要传输量,而且查询的整体性能将会得到提升。
3.2 分布式层次化索引数据存储管理方法
因为Hadoop大数据处理技术生态系统的应用越来越普遍,并且也成为大数据存储管理的工业化指标,所以在实际的应用中,大多数分布式RDF三元数据库都将HBase这一系统作为底层大规模RDF数据的存储平台,这也是HBase系统可拓展性和容错性的重要表现。以分布式层次化为基础的索引存储管理机制,能够更好完成RDF数据的查询、存储等。
结语:
在宽带互联网接入技术及智能终端高速普及的今天,采集数据容量以及处理数据量/数据强度的增加速度大大快于任何一个时期;大数据时代已经悄然来临。大数据时代是伴随着云技术的发展而来的,如何在云环境下进行安全、有效、准确的大数据处理,成为人们研究的一个热点领域。
参考文献:
[1]李程.基于大数据处理技术的防范信息诈骗系统探讨[J].广东通信技术,2017,37(10):44-48.
[2]许杰,冷冰,李明桂,丁文超.大数据处理技术在安全审计系统中的应用[J].通信技术,2016,49(03):346-351.
[3]任梁.试论云计算技术下的大数据处理系统[J].电子技术与软件工程,2014(16):27.
[4]王书海,张婧.基于SQL Server应用系统的大数据量实时处理技术[J].实验室研究与探索,2008(03):16-18+85.