论文部分内容阅读
摘要:大数据时代的来临以及大数据技术的出现,为我们很多工作的开展提供了新的选择与途径。在本文中,将就大数据及其处理架构在高校中的应用进行一定的研究。
关键词:大数据;处理架构;高校;应用
中图分类号:G40-057 文献识别码:A 文章编号:1001-828X(2015)012-0000-02
一、引言
我们现今所处的时代是一个云时代,在这个时代中,数据是各项工作开展非常重要的一个组成部分。对于大数据的概念,其主要是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。海量数据技术,能够有效地处理大量的容忍经过时间内的数据。大数据的技术应用,则主要包括有数据挖掘电网、云计算平台、分布式数据库以及可扩展的存储系统等。
二、大数据的基本概念
大数据自身概念较为抽象,是海量数据的代表,通过对大数据的良好应用,则能够对高校学生学习趋势、未来就业状况等进行良好的预测,用户通过手机、电脑等方式在通数据中心进行连接之后,则能够从数据中心中对不同类型的信息进行获得与分析,以此帮助我们能对不同类型的数据进行综合性的分析与判断。
三、高校大数据结构的特点
1.高校大数据采集
在数据采集方面,可以通过传感器、RFID射频数据的应用对数据进行采集,同时也可以通过社交网络交互方式对结构化、非结构化等不同类型的数据进行获得,通过高可靠以及高速度分布式采集与爬行方式的应用,则能够获得更为高速的数据映射。通过高速数据分析方式的应用,则能够在对数据集成技术进行转换、加载的基础上对质量评价模型进行设计。同时,由于这种大数据往往是散布在不同物理机上,对此我们则可以通过Hadoop等挖掘工具的应用实现对于数据的采集,并根据所需信息内容以指向数据空间的方式形成数据仓库。在这个过程中,所有数据都会统一存储在数据中心资源池内,这就使我们能够根据不同需求对数据采集方式进行选择,对此,对CIO数据需求进行定义则成为了我们首要的任务。
将目标回归到高校中,在高校中,所具有的数据情况较为复杂,以学生就业分析为例,在以往的就业数据中,其来源主要是来自学生的就业薪资待遇、签约单位以及学生分布区域等,通过对上述数据的采集,则能够使我们在获得统计表格之后由高校负责就业的教师根据自身经验对下一年的就业情况进行指导,但是该种方式却不能对校内某一名学生的就业情况进行预测。而通过大数据采集方式的应用,则能够对学生就业相关的特征进行采集,如学生在校成绩排名、参加校内外活动的情况、图书馆借书种类以及日常行为等,具有着更为细化、针对性的特点。
2.高校大数据清理方式
由于高校数据来源较为复杂,在大数据环境下,对于不同数据源,往往会以不同的方式进行数据提取。对于非结构化的数据,如网页等则可以通过Nutch工具对其进行抓取,并在获得之后将其存储在数据库中。而对于具有较好结构的数据,则可以通过ETL工具的应用将其提取到Hbase数据库中。在这里我们有必要对Hbase数据库进行一定的介绍,其不同于普通的关系数据库,而是一个分布式的、具有开放代码的面向列的数据库,非常适合非结构化数据的存储。
3.高校数据存储及管理
根据高校数据所具有的复杂性以及分散性特点,我们建议通过虚拟存储技术的应用对高校数据管理与存储等功能进行实现,通过该技术的应用,能够在降低管理成本、简化存储管理方式的基础上使数据存储利用率得到提升,同时,近年来随着网络技术的发展,基于网络的虚拟存储技术也已经成为了一种趋势,并因其所具有的良好管理性以及开放性较为广泛的应用在数据集、异地容灾等应用中。在本研究中,建议通过云环境架构的应用对用户视图进行搭建,以此帮助我们能够以更为方便的方式实现数据的存储,同时,由于高校数据数据源适量较多,不仅具有XML等半结构化数据、传统关系型数据库,同时也具有着视频、文字等类型的非结构化数据。通过对用户视图的搭建,则能够在更好实现数据存储的同时也对高校现有的大数据系统进行囊括,如学生学习管理系统以及高校信息管理系统等,以此对中心资源池中所积累的大量结构化数据进行统一。
4.高校大数据分析
在获得大数据之后,则需要对其正式开展数据的分析工作。在分析方式上,我们不仅可以选择SPSS以及SAS等较为传统的数据分析工具,也可以使用以开源软件构架为基础的Hadoop进行数据分析,通过对这部分数据的分析、清理,则能够对所获得数据进行进一步的挖掘。通过对学生选课、生活、图书借阅、成绩以及兴趣爱好等方面信息的收集,则能够帮助高校在这部分数据基础上更好的在课件制作、科学研究数据、教学任务制定、招生就业信息以及师资信息等方面为学生提供更好的指导与服务。在这里我们以学生就业情况为例进行一定的说明,相关教职人员在将高校就业分析模型建立所需要的数据信息存储到Hbase数据库之后,则可以通过Hive的应用对Hbase数据库中的不同类型数据进行分析与查询。通过该种方式的应用,不仅能够帮助教职人员更好的根据高校目前就业数据对就业现状进行分析,且能够在现有就业情况的基础上对学生数据进行更进一步的研究,以此对在校学生的就业情况进行预测,并通过协作筛选方式的运用对已经毕业、就业学生的成绩、生活情况、爱好特长、喜好职业、所参加过的社团活动以及性格特点等进行分析,并在此基础上将在校学生同就业生情况的相似程度进行计算。之后,则可以在建立起综合评判模型的基础上以更为科学、针对性的方式对在校学生未来就业提供适合的指导方案。在这部分工作完成之后,教职人员也可则可以进行聚类分析,将高校中已经毕业、且还没有就业的学生通过多种维度进行分析,通过对学生就业情况产生影响的问题进行更为细致的研究分析,并在此基础上对可能对学生就业产生不利影响的行为及时的给出就业预警,以此对高校就业指导中心的作用进行更好的发挥。
5.高校大数据可视化显化
在数据表现层,通过Tableau软件的应用则可以对可视化数据实现显化,以此能够更好的对高校大数据进行显化。还是以高校学生的就业为例,通过图表同画面数据结合方式的应用则能够对学生就业情况进行更好的显示,且在该软件中,我们也可以根据自身需求通过预先定义时间、就业地域等多种维度的数据在单一的图表中进行展现。通过这种可视化显化高效大数据方式的应用,则能够在对数据分析获得结果进行良好展示的基础上使大数据在高校各项工作实际开展中發挥出更大的作用。
四、结语
可以说,大数据的出现,为我们很多工作的开展提供了新的可能。在上文中,我们对大数据及其处理架构在高校中的应用进行了一定的研究,而在高校实际工作开展中,也需要通过云计算技术的应用更好的对大数据下学生行为数据进行收集、分析,以此在形成数据库的基础上更好的为高校未来工作服务。
参考文献:
[1]李华,刘帅,李茂,刘双琪.数据挖掘理论及应用研究[J].断块油气田,2010(01):33-35.
[2]潘春花.数据挖掘理论及挖掘过程浅析[J].科技信息,2009 (04):77-78.
[3]林筑英,刘晓杰,卢林,师蕾,谢刚.基于可信计算的AdHoc网络安全模型研究(英文)[J].中国通信,2011(04):25-26.
[4]连利河,林筑英.基于本体的数据挖掘在成绩分析中的应用研究[J].濮阳职业技术学院学报,2011(06):105-108.
关键词:大数据;处理架构;高校;应用
中图分类号:G40-057 文献识别码:A 文章编号:1001-828X(2015)012-0000-02
一、引言
我们现今所处的时代是一个云时代,在这个时代中,数据是各项工作开展非常重要的一个组成部分。对于大数据的概念,其主要是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。海量数据技术,能够有效地处理大量的容忍经过时间内的数据。大数据的技术应用,则主要包括有数据挖掘电网、云计算平台、分布式数据库以及可扩展的存储系统等。
二、大数据的基本概念
大数据自身概念较为抽象,是海量数据的代表,通过对大数据的良好应用,则能够对高校学生学习趋势、未来就业状况等进行良好的预测,用户通过手机、电脑等方式在通数据中心进行连接之后,则能够从数据中心中对不同类型的信息进行获得与分析,以此帮助我们能对不同类型的数据进行综合性的分析与判断。
三、高校大数据结构的特点
1.高校大数据采集
在数据采集方面,可以通过传感器、RFID射频数据的应用对数据进行采集,同时也可以通过社交网络交互方式对结构化、非结构化等不同类型的数据进行获得,通过高可靠以及高速度分布式采集与爬行方式的应用,则能够获得更为高速的数据映射。通过高速数据分析方式的应用,则能够在对数据集成技术进行转换、加载的基础上对质量评价模型进行设计。同时,由于这种大数据往往是散布在不同物理机上,对此我们则可以通过Hadoop等挖掘工具的应用实现对于数据的采集,并根据所需信息内容以指向数据空间的方式形成数据仓库。在这个过程中,所有数据都会统一存储在数据中心资源池内,这就使我们能够根据不同需求对数据采集方式进行选择,对此,对CIO数据需求进行定义则成为了我们首要的任务。
将目标回归到高校中,在高校中,所具有的数据情况较为复杂,以学生就业分析为例,在以往的就业数据中,其来源主要是来自学生的就业薪资待遇、签约单位以及学生分布区域等,通过对上述数据的采集,则能够使我们在获得统计表格之后由高校负责就业的教师根据自身经验对下一年的就业情况进行指导,但是该种方式却不能对校内某一名学生的就业情况进行预测。而通过大数据采集方式的应用,则能够对学生就业相关的特征进行采集,如学生在校成绩排名、参加校内外活动的情况、图书馆借书种类以及日常行为等,具有着更为细化、针对性的特点。
2.高校大数据清理方式
由于高校数据来源较为复杂,在大数据环境下,对于不同数据源,往往会以不同的方式进行数据提取。对于非结构化的数据,如网页等则可以通过Nutch工具对其进行抓取,并在获得之后将其存储在数据库中。而对于具有较好结构的数据,则可以通过ETL工具的应用将其提取到Hbase数据库中。在这里我们有必要对Hbase数据库进行一定的介绍,其不同于普通的关系数据库,而是一个分布式的、具有开放代码的面向列的数据库,非常适合非结构化数据的存储。
3.高校数据存储及管理
根据高校数据所具有的复杂性以及分散性特点,我们建议通过虚拟存储技术的应用对高校数据管理与存储等功能进行实现,通过该技术的应用,能够在降低管理成本、简化存储管理方式的基础上使数据存储利用率得到提升,同时,近年来随着网络技术的发展,基于网络的虚拟存储技术也已经成为了一种趋势,并因其所具有的良好管理性以及开放性较为广泛的应用在数据集、异地容灾等应用中。在本研究中,建议通过云环境架构的应用对用户视图进行搭建,以此帮助我们能够以更为方便的方式实现数据的存储,同时,由于高校数据数据源适量较多,不仅具有XML等半结构化数据、传统关系型数据库,同时也具有着视频、文字等类型的非结构化数据。通过对用户视图的搭建,则能够在更好实现数据存储的同时也对高校现有的大数据系统进行囊括,如学生学习管理系统以及高校信息管理系统等,以此对中心资源池中所积累的大量结构化数据进行统一。
4.高校大数据分析
在获得大数据之后,则需要对其正式开展数据的分析工作。在分析方式上,我们不仅可以选择SPSS以及SAS等较为传统的数据分析工具,也可以使用以开源软件构架为基础的Hadoop进行数据分析,通过对这部分数据的分析、清理,则能够对所获得数据进行进一步的挖掘。通过对学生选课、生活、图书借阅、成绩以及兴趣爱好等方面信息的收集,则能够帮助高校在这部分数据基础上更好的在课件制作、科学研究数据、教学任务制定、招生就业信息以及师资信息等方面为学生提供更好的指导与服务。在这里我们以学生就业情况为例进行一定的说明,相关教职人员在将高校就业分析模型建立所需要的数据信息存储到Hbase数据库之后,则可以通过Hive的应用对Hbase数据库中的不同类型数据进行分析与查询。通过该种方式的应用,不仅能够帮助教职人员更好的根据高校目前就业数据对就业现状进行分析,且能够在现有就业情况的基础上对学生数据进行更进一步的研究,以此对在校学生的就业情况进行预测,并通过协作筛选方式的运用对已经毕业、就业学生的成绩、生活情况、爱好特长、喜好职业、所参加过的社团活动以及性格特点等进行分析,并在此基础上将在校学生同就业生情况的相似程度进行计算。之后,则可以在建立起综合评判模型的基础上以更为科学、针对性的方式对在校学生未来就业提供适合的指导方案。在这部分工作完成之后,教职人员也可则可以进行聚类分析,将高校中已经毕业、且还没有就业的学生通过多种维度进行分析,通过对学生就业情况产生影响的问题进行更为细致的研究分析,并在此基础上对可能对学生就业产生不利影响的行为及时的给出就业预警,以此对高校就业指导中心的作用进行更好的发挥。
5.高校大数据可视化显化
在数据表现层,通过Tableau软件的应用则可以对可视化数据实现显化,以此能够更好的对高校大数据进行显化。还是以高校学生的就业为例,通过图表同画面数据结合方式的应用则能够对学生就业情况进行更好的显示,且在该软件中,我们也可以根据自身需求通过预先定义时间、就业地域等多种维度的数据在单一的图表中进行展现。通过这种可视化显化高效大数据方式的应用,则能够在对数据分析获得结果进行良好展示的基础上使大数据在高校各项工作实际开展中發挥出更大的作用。
四、结语
可以说,大数据的出现,为我们很多工作的开展提供了新的可能。在上文中,我们对大数据及其处理架构在高校中的应用进行了一定的研究,而在高校实际工作开展中,也需要通过云计算技术的应用更好的对大数据下学生行为数据进行收集、分析,以此在形成数据库的基础上更好的为高校未来工作服务。
参考文献:
[1]李华,刘帅,李茂,刘双琪.数据挖掘理论及应用研究[J].断块油气田,2010(01):33-35.
[2]潘春花.数据挖掘理论及挖掘过程浅析[J].科技信息,2009 (04):77-78.
[3]林筑英,刘晓杰,卢林,师蕾,谢刚.基于可信计算的AdHoc网络安全模型研究(英文)[J].中国通信,2011(04):25-26.
[4]连利河,林筑英.基于本体的数据挖掘在成绩分析中的应用研究[J].濮阳职业技术学院学报,2011(06):105-108.