论文部分内容阅读
国家和社会的经济文化发展离不开科技的战略支持,科学交流和科技评价是保障和引导科技发展的两个重要因素。互联网最早在学术界产生,在大数据时代深远影响着科学交流,也逐渐影响着科技评价格局。替代计量学作为这种时代背景下对学术成果全面影响力评价的计量研究领域,正日益发挥重要作用、受到广泛重视,但是其基础研究还远不足以支撑其应用研究(例如各类评价、信息检索)的迫切需求,这就亟需加强对替代计量指标及其来源的本质、属性和价值的研究。微博替代计量指标在替代计量指标体系中覆盖率最高,是非常典型的一种替代计量指标,适合作为突破点。本文基于大规模数据集,全方位系统地揭示了其数量分布、作者分布、语言分布、价值分布,以期深化对微博替代计量指标内涵和规律的认识,促进微博替代计量数据和指标的科学利用,同时为其他类型替代计量指标研究提供参考。本文研究的主要数据集基础是从Altmetric.com获取的518万多条研究成果替代计量数据全记录,涉及科学推文2千万余条和其他类型替代计量指标14个,并且采集不同时间段Scopus中科技文献的题录数据。根据研究问题的需要,每章采用的数据集不尽相同。描述各个层次不同类型的分布及其规律,主要采用Python的Pandas包进行统计分析和可视化分析;分析科学推文动机分布、科学推文作者身份和科学推文作者语言偏好,主要采用定量与定性相结合的内容分析。此外用到的方法还有共现分析法、模型构建法等。本文的总体研究逻辑是,首先综述国内外研究进展提出研究问题(第0章),然后引介相关理论和构建概念模型作为认识问题的基础(第1章),再通过实证研究具体回答这些研究问题(第2章、第3章、第4章、第5章),最后对整个研究进行总结(第6章)。具体而言,本文核心内容分为五个部分:第1章总结微博替代计量指标理论基础,并构建了全文研究的概念模型。阐述了替代计量学的定义,区分了其与社交媒体计量、论文级别计量的异同,厘清其与大数据、大规模数据及影响力的关系。识别和定义了微博替代计量指标、科学推文、科学新浪微博等核心概念,并引入引文分析理论和社会学理论作为理论基础。构建了微博替代计量指标分布规律研究的概念模型,阐述了各个分布规律之间的内在联系和每个分布规律具体研究内容的逻辑思路。第2章实证分析微博替代计量指标的数量分布规律。测定了微博替代计量指标的相对覆盖率,并与其他替代计量指标做对比;计算出及时性分布,体现了微博替代计量指标在时效上引文指标具有绝对优势;揭示了微博替代计量指标在论文层次和期刊层次的分布,指出其离散集中现象均较引文指标更为显著,并识别了受关注度最高的学科;比较替代计量关注度指数,指出获得科学新浪微博的论文受到很高的关注。第3章实证分析微博替代计量指标的作者分布规律。计算和描述了科学推文作者的生产率分布,将其划分为20个活跃程度级别,分析了生产率最高的高频科学推文作者身份与动机,比较不同活跃程度级别作者的科学推文量,据此指出不同将每条推文的价值等同视之。在期刊层次和学科层次统计科学推文作者分布,识别受关注作者数最多的期刊和学科。计量科学推文作者的地理分布,得出科学推文作者的核心国家和核心城市。依据地点和科学推文频次采取样本,分析了科学推文作者身份类别等属性。第4章实证分析微博替代计量指标的语言分布规律。比较了科技文献语言分布与科学推文语言分布,指出英语已成了非正式科学交流的通用语,分析了各语种的学科优势;比较了世界各国的科学推文分布规律,揭示国家文化特征对科学推文分布的影响;依据英语科学推文比例将各国划分为三个类别,从中取样分析科学推文作者的语言偏好,依据科学推文与其他推文语言的一致性,将作者的语言偏好划分为四个类别。第5章实证分析微博替代计量指标的价值分布规律。着重分析了数值类型和作者类别这两个情境因素对影响微博替代计量指标价值的影响;通过大规模系统分析得出微博替代计量指标与引文指标的相关性,并与其他替代计量指标做比较;采用共现分析将替代计量指标聚为三个类别,发现其中微博替代计量指标处在核心位置;时序分析表明微博替代计量指标很可能是其他事件的引发事件;对科学新浪微博做了内容分析,指出反映学术影响力的科学新浪微博比例较低是其与引文指标呈弱相关性的根本原因,并且微博替代计量指标能反映娱乐影响力和社会影响力,研究成果的结论是科学新浪微博中提到最多的元素。