论文部分内容阅读
摘要:大数据对全球各领域的理念和方法带来了较大的影响。本文通过对近十年来大数据研究的关键词进行聚类分析,得到了大数据研究关键词的12个类团,以便相关人员更好地了解大数据研究的主要领域。
关键词:大数据;聚类分析;共现分析
目前,大数据还没有一个通用且准确的定义。虽然国际上有众多对大数据的不同理解,但人们普遍认为大数据不仅有字面上的海量数据的含义,还包括对这些数据对象的处理和应用。在本文中,大数据被界定为使用非传统处理方法,在合理时间内,对一个体量特别大、数据类型丰富的数据集进行深度挖掘,获得有价值的信息的技术。一般认为,大数据具有3V特征:即Volume(规模性)、Variety(多样性)、Velocity(高速性)。[1]规模性表示其数据体量庞大,多样性表达出大数据的数据来源广、类型丰富且不同类型的数据间可能关联性很强。而高速性强调处理数据的效率,这一点也是它与传统数据挖掘最大的区别。
本文选取中国知网(CNKI)的核心期刊库作为文献获取来源,采取高级检索,检索式为:主题=(“大数据”),来源类别勾选“核心期刊”并按主题排序。选取自2008年以来每年搜索结果前5页的文献,共1883篇。经过筛选删除不相关的文献,最后得到1563篇文献。导出这些文献的题录信息,以此分析大数据技术近10年来的发展规律。
从CNKI下载的文献题录中抽取期刊论文的标题、关键词等信息,以endnot格式存入数据库中。通过SATI文献计量软件进行关键词的提取和频率统计后,共得到2008-2019时间段的4058个关键词。在经过关键词的合并与删除后,本文选取了出现频次大于等于8的关键词作为高频关键词,最终得到了52个高频关键词。将这52个关键词两两配对,可得到2008-2019年大数据研究关键词的共现矩阵,如表1所示:
表1:2008-2019年大数据研究关键词的共现矩阵(部分)
共现矩阵 数据挖掘 云计算 数据分析 图书馆 聚类 Hadoop MapReduce
数据挖掘 93 6 8 4 5 0 0
云计算 6 61 6 4 0 2 5
数据分析 8 6 56 2 0 0 0
图书馆 4 4 2 36 0 2 0
聚类 5 0 0 0 30 0 0
Hadoop 0 2 0 2 0 30 7
MapReduce 0 5 0 0 0 7 28
在共现矩阵基础上,转换得到共现矩阵的相异矩阵,将其导入SPSS軟件后,可得2008-2019年大数据研究关键词聚类的树状图。该图反映出了关键词间的亲疏关系,关键词聚合越早,其间关联度越高;关键词聚合越多,则说明这些关键词所处的类集中程度越高。根据树状图,在阈值为16.5的位置处进行切割,可将大数据技术的相关期刊文献分为12个类团:
K1类研究的是大数据技术对金融业的冲击,代表关键词是互联网金融、商业银行等。它们属于大数据应用的一部分,但近年来由于互联网对于金融领域的冲击格外大,因此有很多人关注大数据技术作为一种新兴的信息技术会给这个领域带来什么影响。
K2类研究大数据技术对教育界的影响,代表关键词是教育大数据。教育领域以大数据为基础构建学习者知识、行为、经验模型,制定其学习档案并依此分析科学的教学策略。
K3类研究数据集成,即将类型、来源不同的数据集合在一起,进行数据和信息共享,以避免信息孤岛现象。
词团K4是对大数据核心问题的研究。代表关键词为数据分析和数据处理。它们都处于大数据处理的前两个阶段,即数据抽取集成和数据分析阶段。
K5类是对大数据工具和处理模式进行研究。如前文所述,大数据技术与海量数据最大的区别在于它是否能采用传统的方法对数据进行高效率的处理。因此,以Hadoop为代表的非传统大数据处理工具自然成为了研究的焦点。
词团K6中包含着两个与大数据技术紧密相关的技术:云计算和物联网。它们的发展为大数据技术提供了良好的平台和技术丰富的数据来源,而大数据技术为处理这些海量的数据提供了可能。
K7类研究属性约简算法改进,它只包括粗糙集和属性约简两个关键词。基于粗糙集理论的属性约简主要可以用来降维处理高维数据对象,但由于原有的属性约简算法难以处理大数据集,因此很多学者提出了其改进算法,以保证算法的可靠。
K8主要研究的是数据,代表关键词为数据质量和数据管理,主要探讨怎样管理好这些海量的数据,保证数据的质量。
K9类研究大数据领域的隐私和安全问题,代表关键词为隐私保护和数据安全。大数据技术虽然给我们的生活带来了便利,但也带来了很多风险,许多过去人们不想被别人知道,或连自己都不知道的习惯被大数据记录了下来并加以分析,将最真实的我们暴露在了互联网的环境下。因此我们急需保护好这些个人隐私,使之得到合理有效的利用。同时,大量数据的集成也给数据的安全性问题带来了挑战。
K10类探讨的是大数据对情报领域的影响,代表关键词有竞争情报、情报分析等。大数据可以给情报领域带来更细、更丰富的数据流,但也对该领域提出了更高的技术要求。
K11类主要研究大数据给图书领域带来的革新,代表关键词有数字图书馆、知识服务等。图书领域往往是较早接触新技术的领域,它们的数字化程度普遍较高,接触到的数据量也很大。面对图书馆数字化的需求,大数据技术也成为了相关学者的研究热点。
词团K12有关数据挖掘,以关联规则和数据仓库等关键词为代表。它是大数据分析最基本的研究途径,用以探究大量数据中潜在的有价值的信息。
词团K13设计聚类,以聚类和有关方法为代表。它是数据挖掘等互联网技术的基础。
词团K14中包含的内容较多,主要可分为机器学习和应用两部分。机器学习的代表关键词主要有神经网络、支持向量机等,它也是一项与大数据技术紧密联系的信息技术。而应用方面包括云会计、数据新闻、思想政治教育等,是大数据技术与其他各个领域的结合应用。
参考文献:
[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(01):146-169.
关键词:大数据;聚类分析;共现分析
目前,大数据还没有一个通用且准确的定义。虽然国际上有众多对大数据的不同理解,但人们普遍认为大数据不仅有字面上的海量数据的含义,还包括对这些数据对象的处理和应用。在本文中,大数据被界定为使用非传统处理方法,在合理时间内,对一个体量特别大、数据类型丰富的数据集进行深度挖掘,获得有价值的信息的技术。一般认为,大数据具有3V特征:即Volume(规模性)、Variety(多样性)、Velocity(高速性)。[1]规模性表示其数据体量庞大,多样性表达出大数据的数据来源广、类型丰富且不同类型的数据间可能关联性很强。而高速性强调处理数据的效率,这一点也是它与传统数据挖掘最大的区别。
本文选取中国知网(CNKI)的核心期刊库作为文献获取来源,采取高级检索,检索式为:主题=(“大数据”),来源类别勾选“核心期刊”并按主题排序。选取自2008年以来每年搜索结果前5页的文献,共1883篇。经过筛选删除不相关的文献,最后得到1563篇文献。导出这些文献的题录信息,以此分析大数据技术近10年来的发展规律。
从CNKI下载的文献题录中抽取期刊论文的标题、关键词等信息,以endnot格式存入数据库中。通过SATI文献计量软件进行关键词的提取和频率统计后,共得到2008-2019时间段的4058个关键词。在经过关键词的合并与删除后,本文选取了出现频次大于等于8的关键词作为高频关键词,最终得到了52个高频关键词。将这52个关键词两两配对,可得到2008-2019年大数据研究关键词的共现矩阵,如表1所示:
表1:2008-2019年大数据研究关键词的共现矩阵(部分)
共现矩阵 数据挖掘 云计算 数据分析 图书馆 聚类 Hadoop MapReduce
数据挖掘 93 6 8 4 5 0 0
云计算 6 61 6 4 0 2 5
数据分析 8 6 56 2 0 0 0
图书馆 4 4 2 36 0 2 0
聚类 5 0 0 0 30 0 0
Hadoop 0 2 0 2 0 30 7
MapReduce 0 5 0 0 0 7 28
在共现矩阵基础上,转换得到共现矩阵的相异矩阵,将其导入SPSS軟件后,可得2008-2019年大数据研究关键词聚类的树状图。该图反映出了关键词间的亲疏关系,关键词聚合越早,其间关联度越高;关键词聚合越多,则说明这些关键词所处的类集中程度越高。根据树状图,在阈值为16.5的位置处进行切割,可将大数据技术的相关期刊文献分为12个类团:
K1类研究的是大数据技术对金融业的冲击,代表关键词是互联网金融、商业银行等。它们属于大数据应用的一部分,但近年来由于互联网对于金融领域的冲击格外大,因此有很多人关注大数据技术作为一种新兴的信息技术会给这个领域带来什么影响。
K2类研究大数据技术对教育界的影响,代表关键词是教育大数据。教育领域以大数据为基础构建学习者知识、行为、经验模型,制定其学习档案并依此分析科学的教学策略。
K3类研究数据集成,即将类型、来源不同的数据集合在一起,进行数据和信息共享,以避免信息孤岛现象。
词团K4是对大数据核心问题的研究。代表关键词为数据分析和数据处理。它们都处于大数据处理的前两个阶段,即数据抽取集成和数据分析阶段。
K5类是对大数据工具和处理模式进行研究。如前文所述,大数据技术与海量数据最大的区别在于它是否能采用传统的方法对数据进行高效率的处理。因此,以Hadoop为代表的非传统大数据处理工具自然成为了研究的焦点。
词团K6中包含着两个与大数据技术紧密相关的技术:云计算和物联网。它们的发展为大数据技术提供了良好的平台和技术丰富的数据来源,而大数据技术为处理这些海量的数据提供了可能。
K7类研究属性约简算法改进,它只包括粗糙集和属性约简两个关键词。基于粗糙集理论的属性约简主要可以用来降维处理高维数据对象,但由于原有的属性约简算法难以处理大数据集,因此很多学者提出了其改进算法,以保证算法的可靠。
K8主要研究的是数据,代表关键词为数据质量和数据管理,主要探讨怎样管理好这些海量的数据,保证数据的质量。
K9类研究大数据领域的隐私和安全问题,代表关键词为隐私保护和数据安全。大数据技术虽然给我们的生活带来了便利,但也带来了很多风险,许多过去人们不想被别人知道,或连自己都不知道的习惯被大数据记录了下来并加以分析,将最真实的我们暴露在了互联网的环境下。因此我们急需保护好这些个人隐私,使之得到合理有效的利用。同时,大量数据的集成也给数据的安全性问题带来了挑战。
K10类探讨的是大数据对情报领域的影响,代表关键词有竞争情报、情报分析等。大数据可以给情报领域带来更细、更丰富的数据流,但也对该领域提出了更高的技术要求。
K11类主要研究大数据给图书领域带来的革新,代表关键词有数字图书馆、知识服务等。图书领域往往是较早接触新技术的领域,它们的数字化程度普遍较高,接触到的数据量也很大。面对图书馆数字化的需求,大数据技术也成为了相关学者的研究热点。
词团K12有关数据挖掘,以关联规则和数据仓库等关键词为代表。它是大数据分析最基本的研究途径,用以探究大量数据中潜在的有价值的信息。
词团K13设计聚类,以聚类和有关方法为代表。它是数据挖掘等互联网技术的基础。
词团K14中包含的内容较多,主要可分为机器学习和应用两部分。机器学习的代表关键词主要有神经网络、支持向量机等,它也是一项与大数据技术紧密联系的信息技术。而应用方面包括云会计、数据新闻、思想政治教育等,是大数据技术与其他各个领域的结合应用。
参考文献:
[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(01):146-169.