论文部分内容阅读
DOI:10.3969/j.issn.1008-0821.2021.09.002
[中图分类号]G250.252 [文献标识码]A [文章编号]1008-0821(2021)09-0012-10
近年来,随着互联网技术的发展和知识共享趋势的推动,学术评价不再只是依赖传统学术指标,Altmetrics开始产生,并引起广泛关注和利用。2005年,Bollen J等学者就提出将社交媒体数据作为补充性计量指标,用于期刊影响力评价。Altmetrics最早是由计量学领域学者Priem J提出,之后同Taraborelli D等学者发表宣言,正式提出Ahmet-rics。
自2010年Altmetrics在境外提出后,我国学者刘春丽迅速反应,于2012年将其译为“选择性计量学”,并说明其与网络计量学和传统科学评价的差异,以及选择性计量学在时效、覆盖面和科学交流中的独特意义;随后,邱均平等学者将其译为替代计量学,阐述其提出过程和研究进展;由庆斌等学者将其译为补充计量学,对补充计量学和补充性指标作了详细介绍。这是目前我国学者3种主要翻译形式,许多学者对其有不同理解,具有代表性的理解就多达十几种,但使用较多的是替代计量学。
目前,关于Altmetrics的研究主要分为理论、工具、方法及应用,理论主要是其概念和问题分析,较多涉及Ahmetrics指标与传统指标之间的关系。例如:Alhoori H等学者发现Altmetrics与出版物的数量、h指数、被引量之间存在相关关系;Eysenbach G等学者指出Altmetrics指标与传统的引文指标呈现弱相关,论文的社会影响力与学术影响力之间关联度并不大;王妍等学者采用Spearman方法尝试探究学者被引频次与Ahmetrics中社会影响力指标之间的相关性,以及各项社会影响力指标之间的相关性。随后,越来越多的Alt-metrics工具开始出现,吴胜男等学者以目前比较常见的Altmetrics应用工具Altmletric.com、Plum Analytics、ImpactStory、PLOS ONE Altmetrics、Readermeter、ScienceCard、PaperCritic以及CitedIn为研究对象,针对每一种工具的功能特征、优势和不足进行详细的分析和论述。其中,Altmetric.com是一款分析评估单篇论文Altmetrics指标的工具,由Digital Science公司开发,该工具综合计算某一篇学术论文在Twitter、Google 、CiteULike、Mendeley、博客以及主流新闻媒体等信息源的引用数据,Altmetrics指标具有多种,一般被学者分为几类进行研究。例如:Waltman L等学者对Altmetrics的11个指标通过因子分析分为3类。目前,Ahmetrics研究主要方法为社会网络分析、数据挖掘与分析等,更多应用于论文、期刊、机构、学者等各种影响力评价领域,并通过不断构建评价指标应用到多个领域,王凯利等学者融合了Alt-metrics和引文分析法构建期刊影响力评价体系,并对国际图情期刊的影响力进行分析:Boetto E等学者发现传统引用计数,社交媒体上的引用以及新闻和博客上的提及之间存在适度的相关性,并且定义一种方法,即综合影响力得分(CIS),该方法可以协调不同的指标以提供多维影响力指标。另外,关于Ahmetrics指标的研究,更多则是关于各指标之间相关性,许丹等学者对比分析SCIE被引频次、ESI高被引、FS、Ahmetrics各项指标之间的关系;陈胜龙等学者验证其与学者H5指数间存在显著相关性。
大数据的迅速发展,带动了数据挖掘领域的研究,数据挖掘领域一般具有C4.5、K-Means、SVM、Apriori等多种具有影响力的算法,可涵盖分类、聚类、统计学习、关联分析和链接挖掘,其中关联规则最早是由Agrawal R等学者提出,是数据挖掘领域的一种方法,可以挖掘数据的隐含特征,关联规则经常应用于购物篮分析,从而为商品促销提供参考,基本方法常为Apriori算法,并被许多学者应用于各种领域。例如:游立清等学者利用此算法提出卷烟物理指标关联性的分析方法。目前,关于关联规则的研究主要是关联规则算法创新、关联规则应用等方面,许多学者提出改进算法进行有关应用。例如:常见的多最小支持度的关联规则挖掘、分类关联规则挖掘等方法,田建勇、徐樾等学者将改进算法应用于计算机和动力工程等不同领域。关联规则应用范围较广,学者纷纷创新,广泛应用于多种领域,常见的是应用于中医药,探析用药规律等问题,申玲玲等学者针对急性痛风性关节炎用药规律研究。另外多是利用关联规则进行影响因素的相关研究,曹磊等学者利用关联规则对路面损坏状况影响因素进行探讨。
综合来看,Altmetrics相关研究目前主要集中在与各指标进行相关性分析的研究,以及通过指标构建应用于不同领域进行评价,关于高社会影响力论文的论文特征和传播特征相对较少,聚类分析和关联规则作为常用方法,但较少结合应用于论文特征方面。因此,本文将Ahmetric TOP榜文献作为高社会影响力文献,利用频数统计与分析探讨高社会影响力文献特征,同时利用聚类与关联规则进行分析,探讨不同学科、国家(地区)、文献获取方式、AAS值、被引次数等方面的传播渠道特征。
1研究方法与数据来源
1.1研究方法
本文采用定性与定量分析的方法,首先从Ah.metric,com得到Ahmetric TOP榜文献,基于所得數据进行频数统计与分析,然后通过K-Means聚类将不同指标划分级别,最后利用基于Apriori算法的关联规则探讨不同被引次数区间、AAS值区间、学科、国家(地区)和获取方式的传播特征。其中关联规则是常用的数据挖掘领域方法,能够有效挖掘数据隐含特征,Apriori算法是一个经典的挖掘规则算法。一般以商品交易为例,假设被研究对象称为项(Item),所有项的集合为,={i1,i2,…,im},每条交易ti项对应的项的集合为I的子集,I的任何一个子集被称为项集(Itemset),即X={ij1,ij2,…,ijm},事务数据库为D={t1,t2,…,tm},每条交易数据ti构成事务D,每个项集包含的项的个数称为项集的长度,一个长度为k的项集被称为k项集,一个项集X在数据库D中出现的次数称为频数,记为count(X)。关联规则需要从数据中找出满足最小支持度和置信度的关联规则,其中定义如下: 1)支持度(support)。一个项集X的支持度指的是在数据集中包含该项集的记录所占比例。如式(1)所示。若给定一个最小支持度support(min),所得support(X)≥support(min),则X称为频繁项集。
support(X)=count(X)/|D} (1)
2)置信度(confidence)。也可称为可信度,它是针对一条比如X→Y的关联规则来定义的,指的是包含X的交易中包含Y的比例。即:
cofidence(X=
[中图分类号]G250.252 [文献标识码]A [文章编号]1008-0821(2021)09-0012-10
近年来,随着互联网技术的发展和知识共享趋势的推动,学术评价不再只是依赖传统学术指标,Altmetrics开始产生,并引起广泛关注和利用。2005年,Bollen J等学者就提出将社交媒体数据作为补充性计量指标,用于期刊影响力评价。Altmetrics最早是由计量学领域学者Priem J提出,之后同Taraborelli D等学者发表宣言,正式提出Ahmet-rics。
自2010年Altmetrics在境外提出后,我国学者刘春丽迅速反应,于2012年将其译为“选择性计量学”,并说明其与网络计量学和传统科学评价的差异,以及选择性计量学在时效、覆盖面和科学交流中的独特意义;随后,邱均平等学者将其译为替代计量学,阐述其提出过程和研究进展;由庆斌等学者将其译为补充计量学,对补充计量学和补充性指标作了详细介绍。这是目前我国学者3种主要翻译形式,许多学者对其有不同理解,具有代表性的理解就多达十几种,但使用较多的是替代计量学。
目前,关于Altmetrics的研究主要分为理论、工具、方法及应用,理论主要是其概念和问题分析,较多涉及Ahmetrics指标与传统指标之间的关系。例如:Alhoori H等学者发现Altmetrics与出版物的数量、h指数、被引量之间存在相关关系;Eysenbach G等学者指出Altmetrics指标与传统的引文指标呈现弱相关,论文的社会影响力与学术影响力之间关联度并不大;王妍等学者采用Spearman方法尝试探究学者被引频次与Ahmetrics中社会影响力指标之间的相关性,以及各项社会影响力指标之间的相关性。随后,越来越多的Alt-metrics工具开始出现,吴胜男等学者以目前比较常见的Altmetrics应用工具Altmletric.com、Plum Analytics、ImpactStory、PLOS ONE Altmetrics、Readermeter、ScienceCard、PaperCritic以及CitedIn为研究对象,针对每一种工具的功能特征、优势和不足进行详细的分析和论述。其中,Altmetric.com是一款分析评估单篇论文Altmetrics指标的工具,由Digital Science公司开发,该工具综合计算某一篇学术论文在Twitter、Google 、CiteULike、Mendeley、博客以及主流新闻媒体等信息源的引用数据,Altmetrics指标具有多种,一般被学者分为几类进行研究。例如:Waltman L等学者对Altmetrics的11个指标通过因子分析分为3类。目前,Ahmetrics研究主要方法为社会网络分析、数据挖掘与分析等,更多应用于论文、期刊、机构、学者等各种影响力评价领域,并通过不断构建评价指标应用到多个领域,王凯利等学者融合了Alt-metrics和引文分析法构建期刊影响力评价体系,并对国际图情期刊的影响力进行分析:Boetto E等学者发现传统引用计数,社交媒体上的引用以及新闻和博客上的提及之间存在适度的相关性,并且定义一种方法,即综合影响力得分(CIS),该方法可以协调不同的指标以提供多维影响力指标。另外,关于Ahmetrics指标的研究,更多则是关于各指标之间相关性,许丹等学者对比分析SCIE被引频次、ESI高被引、FS、Ahmetrics各项指标之间的关系;陈胜龙等学者验证其与学者H5指数间存在显著相关性。
大数据的迅速发展,带动了数据挖掘领域的研究,数据挖掘领域一般具有C4.5、K-Means、SVM、Apriori等多种具有影响力的算法,可涵盖分类、聚类、统计学习、关联分析和链接挖掘,其中关联规则最早是由Agrawal R等学者提出,是数据挖掘领域的一种方法,可以挖掘数据的隐含特征,关联规则经常应用于购物篮分析,从而为商品促销提供参考,基本方法常为Apriori算法,并被许多学者应用于各种领域。例如:游立清等学者利用此算法提出卷烟物理指标关联性的分析方法。目前,关于关联规则的研究主要是关联规则算法创新、关联规则应用等方面,许多学者提出改进算法进行有关应用。例如:常见的多最小支持度的关联规则挖掘、分类关联规则挖掘等方法,田建勇、徐樾等学者将改进算法应用于计算机和动力工程等不同领域。关联规则应用范围较广,学者纷纷创新,广泛应用于多种领域,常见的是应用于中医药,探析用药规律等问题,申玲玲等学者针对急性痛风性关节炎用药规律研究。另外多是利用关联规则进行影响因素的相关研究,曹磊等学者利用关联规则对路面损坏状况影响因素进行探讨。
综合来看,Altmetrics相关研究目前主要集中在与各指标进行相关性分析的研究,以及通过指标构建应用于不同领域进行评价,关于高社会影响力论文的论文特征和传播特征相对较少,聚类分析和关联规则作为常用方法,但较少结合应用于论文特征方面。因此,本文将Ahmetric TOP榜文献作为高社会影响力文献,利用频数统计与分析探讨高社会影响力文献特征,同时利用聚类与关联规则进行分析,探讨不同学科、国家(地区)、文献获取方式、AAS值、被引次数等方面的传播渠道特征。
1研究方法与数据来源
1.1研究方法
本文采用定性与定量分析的方法,首先从Ah.metric,com得到Ahmetric TOP榜文献,基于所得數据进行频数统计与分析,然后通过K-Means聚类将不同指标划分级别,最后利用基于Apriori算法的关联规则探讨不同被引次数区间、AAS值区间、学科、国家(地区)和获取方式的传播特征。其中关联规则是常用的数据挖掘领域方法,能够有效挖掘数据隐含特征,Apriori算法是一个经典的挖掘规则算法。一般以商品交易为例,假设被研究对象称为项(Item),所有项的集合为,={i1,i2,…,im},每条交易ti项对应的项的集合为I的子集,I的任何一个子集被称为项集(Itemset),即X={ij1,ij2,…,ijm},事务数据库为D={t1,t2,…,tm},每条交易数据ti构成事务D,每个项集包含的项的个数称为项集的长度,一个长度为k的项集被称为k项集,一个项集X在数据库D中出现的次数称为频数,记为count(X)。关联规则需要从数据中找出满足最小支持度和置信度的关联规则,其中定义如下: 1)支持度(support)。一个项集X的支持度指的是在数据集中包含该项集的记录所占比例。如式(1)所示。若给定一个最小支持度support(min),所得support(X)≥support(min),则X称为频繁项集。
support(X)=count(X)/|D} (1)
2)置信度(confidence)。也可称为可信度,它是针对一条比如X→Y的关联规则来定义的,指的是包含X的交易中包含Y的比例。即:
cofidence(X=