基于聚类和关联规则的Altmetric TOP榜文献特征分析

来源 :现代情报 | 被引量 : 0次 | 上传用户:liu_da_shi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  DOI:10.3969/j.issn.1008-0821.2021.09.002
  [中图分类号]G250.252 [文献标识码]A [文章编号]1008-0821(2021)09-0012-10
  近年来,随着互联网技术的发展和知识共享趋势的推动,学术评价不再只是依赖传统学术指标,Altmetrics开始产生,并引起广泛关注和利用。2005年,Bollen J等学者就提出将社交媒体数据作为补充性计量指标,用于期刊影响力评价。Altmetrics最早是由计量学领域学者Priem J提出,之后同Taraborelli D等学者发表宣言,正式提出Ahmet-rics。
  自2010年Altmetrics在境外提出后,我国学者刘春丽迅速反应,于2012年将其译为“选择性计量学”,并说明其与网络计量学和传统科学评价的差异,以及选择性计量学在时效、覆盖面和科学交流中的独特意义;随后,邱均平等学者将其译为替代计量学,阐述其提出过程和研究进展;由庆斌等学者将其译为补充计量学,对补充计量学和补充性指标作了详细介绍。这是目前我国学者3种主要翻译形式,许多学者对其有不同理解,具有代表性的理解就多达十几种,但使用较多的是替代计量学。
  目前,关于Altmetrics的研究主要分为理论、工具、方法及应用,理论主要是其概念和问题分析,较多涉及Ahmetrics指标与传统指标之间的关系。例如:Alhoori H等学者发现Altmetrics与出版物的数量、h指数、被引量之间存在相关关系;Eysenbach G等学者指出Altmetrics指标与传统的引文指标呈现弱相关,论文的社会影响力与学术影响力之间关联度并不大;王妍等学者采用Spearman方法尝试探究学者被引频次与Ahmetrics中社会影响力指标之间的相关性,以及各项社会影响力指标之间的相关性。随后,越来越多的Alt-metrics工具开始出现,吴胜男等学者以目前比较常见的Altmetrics应用工具Altmletric.com、Plum Analytics、ImpactStory、PLOS ONE Altmetrics、Readermeter、ScienceCard、PaperCritic以及CitedIn为研究对象,针对每一种工具的功能特征、优势和不足进行详细的分析和论述。其中,Altmetric.com是一款分析评估单篇论文Altmetrics指标的工具,由Digital Science公司开发,该工具综合计算某一篇学术论文在Twitter、Google 、CiteULike、Mendeley、博客以及主流新闻媒体等信息源的引用数据,Altmetrics指标具有多种,一般被学者分为几类进行研究。例如:Waltman L等学者对Altmetrics的11个指标通过因子分析分为3类。目前,Ahmetrics研究主要方法为社会网络分析、数据挖掘与分析等,更多应用于论文、期刊、机构、学者等各种影响力评价领域,并通过不断构建评价指标应用到多个领域,王凯利等学者融合了Alt-metrics和引文分析法构建期刊影响力评价体系,并对国际图情期刊的影响力进行分析:Boetto E等学者发现传统引用计数,社交媒体上的引用以及新闻和博客上的提及之间存在适度的相关性,并且定义一种方法,即综合影响力得分(CIS),该方法可以协调不同的指标以提供多维影响力指标。另外,关于Ahmetrics指标的研究,更多则是关于各指标之间相关性,许丹等学者对比分析SCIE被引频次、ESI高被引、FS、Ahmetrics各项指标之间的关系;陈胜龙等学者验证其与学者H5指数间存在显著相关性。
  大数据的迅速发展,带动了数据挖掘领域的研究,数据挖掘领域一般具有C4.5、K-Means、SVM、Apriori等多种具有影响力的算法,可涵盖分类、聚类、统计学习、关联分析和链接挖掘,其中关联规则最早是由Agrawal R等学者提出,是数据挖掘领域的一种方法,可以挖掘数据的隐含特征,关联规则经常应用于购物篮分析,从而为商品促销提供参考,基本方法常为Apriori算法,并被许多学者应用于各种领域。例如:游立清等学者利用此算法提出卷烟物理指标关联性的分析方法。目前,关于关联规则的研究主要是关联规则算法创新、关联规则应用等方面,许多学者提出改进算法进行有关应用。例如:常见的多最小支持度的关联规则挖掘、分类关联规则挖掘等方法,田建勇、徐樾等学者将改进算法应用于计算机和动力工程等不同领域。关联规则应用范围较广,学者纷纷创新,广泛应用于多种领域,常见的是应用于中医药,探析用药规律等问题,申玲玲等学者针对急性痛风性关节炎用药规律研究。另外多是利用关联规则进行影响因素的相关研究,曹磊等学者利用关联规则对路面损坏状况影响因素进行探讨。
  综合来看,Altmetrics相关研究目前主要集中在与各指标进行相关性分析的研究,以及通过指标构建应用于不同领域进行评价,关于高社会影响力论文的论文特征和传播特征相对较少,聚类分析和关联规则作为常用方法,但较少结合应用于论文特征方面。因此,本文将Ahmetric TOP榜文献作为高社会影响力文献,利用频数统计与分析探讨高社会影响力文献特征,同时利用聚类与关联规则进行分析,探讨不同学科、国家(地区)、文献获取方式、AAS值、被引次数等方面的传播渠道特征。
  1研究方法与数据来源
  1.1研究方法
  本文采用定性与定量分析的方法,首先从Ah.metric,com得到Ahmetric TOP榜文献,基于所得數据进行频数统计与分析,然后通过K-Means聚类将不同指标划分级别,最后利用基于Apriori算法的关联规则探讨不同被引次数区间、AAS值区间、学科、国家(地区)和获取方式的传播特征。其中关联规则是常用的数据挖掘领域方法,能够有效挖掘数据隐含特征,Apriori算法是一个经典的挖掘规则算法。一般以商品交易为例,假设被研究对象称为项(Item),所有项的集合为,={i1,i2,…,im},每条交易ti项对应的项的集合为I的子集,I的任何一个子集被称为项集(Itemset),即X={ij1,ij2,…,ijm},事务数据库为D={t1,t2,…,tm},每条交易数据ti构成事务D,每个项集包含的项的个数称为项集的长度,一个长度为k的项集被称为k项集,一个项集X在数据库D中出现的次数称为频数,记为count(X)。关联规则需要从数据中找出满足最小支持度和置信度的关联规则,其中定义如下:   1)支持度(support)。一个项集X的支持度指的是在数据集中包含该项集的记录所占比例。如式(1)所示。若给定一个最小支持度support(min),所得support(X)≥support(min),则X称为频繁项集。
  support(X)=count(X)/|D} (1)
  2)置信度(confidence)。也可称为可信度,它是针对一条比如X→Y的关联规则来定义的,指的是包含X的交易中包含Y的比例。即:
  cofidence(X=
其他文献
因为年纪越来越大了,觉得应该舍弃那些青春电影,但没忍住好奇,最终还是看了那部轰动一时的《我的少女时代》。看完有人很纳闷儿,男主为什么完美无缺的校花不选,偏偏喜欢一个笨笨的老是出丑的林真心。好了,这个“有人”就是我……原谅我脑回路奇特,加上脑洞开得太远收不住闸,想了半天我终于想起之前在某节心理选修课上听到的一个词儿,“出丑效应”,应用在这个事件上,或许能给出个合理的解释。  好好儿说的话,出丑效应又
推荐书籍:《奇迹》  作者: 是枝裕和  精彩书摘:上了二楼,航一把泳衣和浴巾挂在了晾衣杆上后,坐到书桌前,打开了今天的作业。看着“父亲的职业”那一栏,航一想,干脆写EXILE上去好了!我爸爸是EXILE的KENJI!结果,他既没有写EXILE,也没有写“不卖座的摇滚乐队”,而是写上了“公司职员”。航一又想叹气了。妈妈虽然很想念龙之介,却仿佛没有要跟爸爸和好的意思。  一句话推荐:比起看见流星、列
朴海镇:哈哈哈 都吃完了~~  【因为《传闻中的七公主》和《钱多多嫁人记》在中国人气高涨的朴海镇也在中国开微博啦,而且更新还很频繁呢,最近正在和李英雅一同拍摄电影《雪海》,拍戏空档,还不忘记搞怪,这图貌似是在吃回转寿司?虽然寿司不太容易吃饱,这也太夸张了,还分步骤拍摄,吃前——吃中——吃后……网友都大呼,吃的完么?不过唬谁呢,明明三张照片盘子里的东西就没怎么动过,装出一副快撑死的样子。无语- -…
这个世界是讲筹码的吧,有的人想持平,我只想尽兴。更多时候,不是我有钱了所以去买一管贵得要死的口红,而是我太喜欢那管口红得不到它我会死,所以我努力让自己有钱到能负担起它的价格。  [1]  在上海呆了大半年,最大的长进就是吃辣不长痘。入学之初,每次跟舍友们出去胡吃海喝,她们点的都是“重辣”“超级辣”“变态辣”,我的“微辣”显得那么不合群。过个年回来,T厨娘附身,搞来锅碗瓢盆煮她家乡有名的螺蛳粉给我吃
冬日的星期一,总是迷漫着一股容易让人懒散的气息。好吧,起床。被窝是青春的坟墓。七堇年如是说。六点三十分,嗯,再赖赖……  依稀听到有人说七点了。才七点哪……七点!糟了!  掀开棉被,迷糊中带着些清醒——被刺激到的清醒。赶紧梳理凌乱的头发——幸好是短发;赶紧换衣服——幸好是校服,不用挠头苦冥得如何搭配。  一系列的手忙脚乱,像小丑鸭(不是丑小鸭,毕竟它最后是高贵的天鹅)被追打般慌乱。  七点二十分,
番外:有朋自远方来,瞧把我们得瑟的!  2013年末,春艳姐敲门说,我给你带来一个人。然后来自海南的邓帅哥就出现了。他从零上二十几度的天气,跨过整个地图的距离,来到零下二十几度的长春读大学,推开清华路156号的大门,与我们温暖相聚。爱小博的你赠予我们的,是这个冬天最温暖的动力!  【开始的开始】  我所钟爱的杂志,有着一个很清新的名字——《中学生博览》。迷恋她的那一大群孩子叫铂金,铂金与铂金之间叫
1  辛初黎参加妈妈的第二次婚礼那天正好15岁,但她没有收到来自妈妈的生日祝福。以前她也会像很多孩子一样,天真地问爸爸妈妈为什么他們结婚的时候她不在,觉得自己缺席了他们人生非常重要的时刻。但此刻,当她真的坐在了属于妈妈的婚礼现场,这个问题又略显讽刺。  她永远忘不了中考结束的那个午后,爸爸妈妈一起到学校来接她,辛初黎把那一刻定义为自己人生中的最后一个幸福时刻。在看到爸爸妈妈的那一瞬间她感到无比欢快
“治大国如烹小鲜”,“厨子”库克或许在个人魅力方面无法与乔布斯相比,或许作为经营高手的他,比乔布斯更懂得如何治理一家巨无霸公司。  乔布斯的影响在苹果无所不在,库克只需沿着乔布斯制定的成功战略,巩固苹果现有的平台优势,稳步部署各种突出技术,开发新兴市场等增长空间,就能够维持苹果在全球的行业领先地位。  “改变世界”,是的,很熟悉,这正是乔布斯的毕生追求。而库克正沿着他铺设的道路继续指挥苹果前行,至
说起青梅竹马这回事儿,我没有任何发言权。我因为很小就开始寄宿生涯,在这件事上从一开始就输在了起跑线上。  不过还好还好,虽然没有脚踏七彩祥云从小就说着“长大以后娶你当我的新娘”的竹马,我却结识了一群志同道合的神经病。  我们的寝室,我们的302,就像是一支乐队。每一种乐器都有自己独特的音色,都能奏出不一样的旋律,碰撞起来会锅碗瓢盆乒乓响,舒缓起来也能像小夜曲一样安神宁气。  夏妲:我会想起你,像想
作为覆盖全球136个国家和地区的国际文化网络,法语联盟的存在,代表着法语文化圈的人们对自身文化的热爱和自信。当这一文化组织来到中国,会发生什么呢?  在刚刚接到采访任务时,《留学》记者曾经纠结过一个问题:采访应当用什么语言?既然是一个“老外”,那英语应该是首选。然而,在深入了解了法语联盟的风格和使命后,这一选项被果断排除掉了。不为别的,法语联盟的存在本身就代表着法国人对自身文化的热爱和自信。当这一