Folksonomy的网络性质分析

来源 :现代情报 | 被引量 : 0次 | 上传用户:mrlee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕Folksonomy是Web2.0环境下一种有效的网络信息组织方式。本文分析了Folksonomy的网络性质,基于社会化书签系统delicious数据集,发现了标签网络具有的两个基本性质:(1)网络的平均最短路径为3.16,聚集系数0.63,远大于相同参数下的随机网络,这揭示了标签网络的小世界效应;(2)网络中标签的度大体上呈幂律分布,表明标签网络具有无标度特性。
  〔关键词〕Folksonomy;标签;复杂网络;小世界;无标度
  〔中图分类号〕G255.51 〔文献标识码〕A 〔文章编号〕1008-0821(2009)07-0061-03
  
  Analysis of Network Properties of FolksonomyLi Jing
  (Library,Henan Normal University,Xinxiang 453007,China)
  〔Abstract〕Folksonomy is a new kind of information organization methods emerging in Web2.0 environment.This paper analyzed network properties of folksonomy.Based on the dataset of social bookmarking site delicious,two fundamental characteristics were discovered.(1)Average node degree was 3.16 and clustering coefficient was 0.63,which exhibited a typical small world effect.(2)The degree distribution of tag network followed a power law distribution,i.e.,the scale free property.
  〔Key words〕Folksonomy;tag;complex network;small-world;scale-free
  
  社会化书签(Social Bookmarking)服务(如Del.icio.us、CiteULike、Flickr等)是Web2.0的标志性应用之一。Folksonomy(分众分类法)是基于社会化书签系统的一种新型信息组织方法,它带来了全新的信息交流与资源分享方式。作为一种自由而有效的网络信息组织方法,Folksonomy为传统的网络信息分类和传播方法带来了新的理念,体现了互联网所推崇的共享与协作精神,开创了互联网信息传播的新阶段。对Folksonomy的研究也在计算机科学、情报学等多种学科中迅速展开。
  在社会化标签系统中,用户通过标签对资源进行标注的行为,使标签,资源和用户之间产生了一定的联系,在拓扑上形成网络结构。本文旨在对基于Folksonomy的标签网络进行研究,从复杂网络研究的角度分析标签网络具有的特性。
  
  1 Folksonomy概述
  
  1.1 Folksonomy的概念
  社会化书签系统是Folksonomy的运行环境。社会化书签系统为用户提供了基于标签(Tag)技术的信息组织和管理方式,帮助用户存储和管理个人信息资源,并提供分享和交流的平台。在社会化书签系统中,用户根据个人的需要自由选择词汇对资源进行标注,每添加1个词汇被称为对资源添加1个“标签(Tag)”。用户、资源和标签组成了社会化书签系统的3个基本元素。
  在社会化书签系统中,用户使用标签对资源进行标注,每个标签相当于用户对资源的一个分类,资源根据不同的标签被组织到不同的分类之下;所有用户的资源存在于一个共享的平台上,相同的标签还能够聚合不同用户相同分类下的资源。这种信息组织方式具有2个明显的特征:一是在对资源添加标签的过程中,用户不需要遵循任何事先制定的分类法或者词表;二是每个用户的活动空间不是孤立、封闭的,而是开放、共享的,因此也是互相影响的。信息构建专家Thomas Vander Wal将这种在基于互联网的社会环境中、由大众用户产生的信息分类组织方式命名为“Folksonomy”[1](中文名称被译为“分众分类法”、“自由分类法”、“大众分类法”、“通俗分类法”或“社会分类法”等)。从语源学上讲,Folksonomy是由“Folk”和“Taxonomy”2个单词组成的,表示由“群众”制定的分类法。它是用户自发的用标签对资源进行标注和分类,并与他人共享标签的过程和结果。用户添加标签的行为是“在一个社会化的环境中进行,即这个环境是开放和共享的”[2]。标签是Folksonomy形成和使用的基础,也是Folksonomy词汇体系的基本构成单元。
  1.2 Folksonomy的内涵与功能
  Folksonomy的内涵与功能主要包括3个方面:
  (1)普通用户参与和主导信息的组织,用户间通过协作完成对信息的分类组织;用户能够对资源的意义进行标注,以便于再次查找和使用,同时使个人的资源能够被其他用户发现和分享。从结构上来讲,Folksonomy是一种平面的结构,没有等级体系。
  (2)Folksonomy具有社群聚合的功能,并且能够反映不同社群对相同事物的不同认识,从而建立不同知识体系间的联系,具有强大的知识聚合及共享功能。
  (3)Folksonomy赋予了用户基于标签的检索、浏览和定制功能。Folksonomy能够通过特定的标签聚合整个信息空间中的相似内容,在资源极其丰富的背景下,Folksonomy能够帮助用户发现感兴趣的内容。
  1.3 Folksonomy与相关概念
  1.3.1 Folksonomy与传统文献分类法
  传统的文献分类法以学科聚类,类目的等级结构是文献分类法的重要特征。等级列举式分类法和分面组配式分类法是文献分类法的两种基本形式。前者具有固定的类目等级结构,仅支持单一的检索途径,不能进行多角度的检索,难以增加新的类目;而后者可以调整分面的组配次序,支持多途径多角度的检索,也容易通过分面组配表达新产生的概念。根据以上特征,文献分类法的结构可以被比喻成一棵树,拥有枝干和树叶,等级列举式分类法具有稳定的分枝,分面组配式分类法的每条枝干则能够动态地移植、嫁接;与之相对的Folksonomy中的标签离散地分布在一个平面中,则可以被视为一堆树叶。
  此外,文献分类法在标引资源时采用特定的符号系统,而Folksonomy却是直接使用词汇,因此Folksonomy也可以被看作一个词汇的集合。
  1.3.2 Folksonomy与元数据
  元数据和Folksonomy都是为了高效地组织信息以方便用户的使用而发展起来的,前者的实施主体是相关专业人士,而后者则依靠的是广大网民。元数据经过10余年的发展,标准越来越复杂,在语义网的导向下更是从“大众的元数据”变成了“机器程序的元数据”,操作和维护成本相当高,在应用中几乎停滞不前。
  Folksonomy是普通用户对资源描述的结果,这些用户可能是资源的作者也可能是使用者,因此自由分类法在某种意义上可以被视为一种用户产生的元数据。这种用户产生的元数据提供了资源的描述、定位、权限管理等多种功能,同时结构非常简单,完全采用自然语言,既没有区分主题、作者或来源等元素,也没有受控词表的限定。与传统元数据相比,依赖于大众参与的Folksonomy难以形成某种通用或供推荐的标准,它需要在特定的环境中运行和发挥作用。它的价值在于由广大的用户以协作的方式对分布式、迅速增长的网络信息资源进行描述和标引,为这些资源提供新的检索途径,而不是仅仅依赖于互联网服务的提供者或搜索引擎。
  
  2 Folksonomy的复杂网络性质
  
  自然界中存在的大量复杂系统都可以通过网络进行抽象和描述。原则上讲,任何包含大量组成单元的复杂系统,当把构成单元抽象成节点、单元之间的相互关系抽象为边时,都可以当作复杂网络来研究[3]。复杂网络突出强调了系统结构的拓扑特征,通过对网络结构特征的分析和网络模型的构建,可以理解网络结构与网络行为之间的关系,进而调整和改善网络行为。小世界现象和无标度特性是目前两类最典型的复杂网络特征。
  在社会化标签系统结构图中,可以看到,用户通过标签对资源进行标注的行为,使标签、资源和用户之间产生了一定的联系,在拓扑上形成网络结构。其中标签之间可以通过对资源的标注形成标签-标签网络等。若标签t1和t2标注了同一个资源,称t1和t2同现(co-occurrence)。若两个标签经常用于标注相同的资源,则它们在一定程度上具有相似的语义。标签之间的同现关系形成网络结构,可以通过图来表示。通过同现分析和网络分析,从标签关联角度发掘网络的性质,将有助于对Folksonomy性质的深入分析,深层次的挖掘用户、标签和资源间的关系。
  2.1 小世界现象
  小世界现象揭示了客观世界许多复杂网络运动中最为有效的信息传递方式之一,即一个高度聚集的包含了“局部连接”节点的子网,连同一些有助于产生短路径的长距离随机连接。小世界现象目前还没有精确的定义,一般认为,如果网络具有小的平均路径长度和大的聚集系数,则称该网络具有小世界现象。平均路径长度和聚类系数是考察网络小世界现象的两个重要指标[4]。
  平均最短路径长度是网络中两节点之间的平均距离。具有小世界性质的网络的平均最短路径会很短,远小于网络规模(这也是“小世界”命名的原因)。一个节点的聚集系数反映了其相邻节点所构成集合的聚集程度。整个网络的聚合系数C是每个节点i的聚合系数Ci的平均值(0≤C≤1)。
  2.2 无标度特性
  对复杂网络进行考量的另一个重要方面是节点的度分布。节点的度是指与节点i直接相连的边的数目ki,平均节点度是网络中所有节点度的平均值。度值的分布特征是网络的重要几何性质。网络中节点的度分布用分布函数p(k)来表示,其含义为一个随机选定的节点恰好有k条边的概率。
  网络的无标度特性指网络缺乏一个特征度值,或平均度值,即节点度值的波动范围相当大。节点度满足幂律分布的网络具有无标度特性,相应网络称为无标度网络[5]。节点度服从幂律分布,指具有某个特定度的节点数目与这个特定的度之间的关系可以用一个幂函数近似地表示,即p(k)∝k-λ,其中λ是幂律指数。与常见的钟型分布(如正态分布、Poisson分布)不同,幂律分布有一条长尾,是一种重尾分布,其随机量有明显的两极分化倾向。把幂函数的两边取对数得到logp∝-λlogk,即在双对数坐标下,变量关系是一条直线。在网络中幂律分布表示大多数节点仅有少量连接,而少数节点拥有大量连接。
  成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。成长性是指网络节点数的增加,即网络规模不断扩大同时其自身在不断演化;优先连接性是指新加入的节点总是优先选择与度值较高的节点相连,表现出“马太效应”。这两个性质导致了复杂网络中节点的度分布服从幂律分布,存在少量度相对很高的节点,但绝大多数节点的度相对很低(即存在所谓的“长尾”)。
  
  3 实验与分析
  
  笔者使用使用Java Html Parser[6],于2008.11.25-27日抓取了delicious.com页面数据,经过数据清理和处理,得到数据集如下所示:
  
  4 结束语
  
  本文研究了基于Folksonomy的标签网络的小世界现象和无标度特性。对Folksonomy的网络特性的分析,将帮助我们对Folksonomy有更深入的理解,也从一个侧面印证了复杂网络的普适性。在此基础上,后续研究将进一步探索网络中标签的语义关联和社群结构,充分发掘Folksonomy在信息资源组织和知识管理等领域的潜在价值。
  
  参考文献
  [1]Adam Mathes.Folksonomies-Cooperative Classification and Communication throughShared Metadata[EB/OL].http:∥www.adammathes.com/academic/computer-mediated-communication/folksonomies.html.
  [2]Gene Smith.Folksonomy:social classification[EB/OL].http:∥atomiq.org/archives/2004/08/folksonomysocialclassification.html.
  [3]Newman M E J.The structure and function of complex networks[J].SIAM Review,2003,45(2):167-256.
  [4]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks[J].Nature,1998,393:440-442.
  [5]Barabási A L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272:173-187.
  [6]Java Html Parser[EB/OL].http:∥htmlparser.sourceforge.net/.
其他文献
一、 会议宗旨  情报学与情报工作发展论坛自成立以来,已成功举办两届,有效推动了情报学与情报工作的科学发展,并取得了良好反响与广泛肯定。大数据与人工智能正在重塑情报学与情报工作的内核与应用场景,为延续《南京共识》精神,把握转型与变革机遇,汇集并凸显情报领域的最新进展,推动我国情报学人与情报工作者的交流,创新情报学与情报工作的理论与实践,搭建年度性的全国情报学学术会议平台,形成学术传统,“新时代 新
[摘要]根据《中国期刊全文数据库》收录的相关论文的分布情况,将1957-2012年期间我国科学哲学元研究划分为3个时期。利用CiteSpace软件对每个时期的研究文献的关键词进行计量和可视化分析,发现在3个时段中,我国科学哲学元研究的热点主题呈现渐次多元化的变化趋势。从传统科学哲学元研究到科学史视角下的科学哲学研究,再到“中国化”的科学哲学元研究。对近年来我国科学哲学元研究主题的分析,展现出社会科
〔摘要〕本文结合大数据时代背景下对图书情报人才提出的新要求,从培养目标、教育理念、课程设置等方面入手,运用对比分析的方法,分析研究了伊利诺伊大学图书馆和信息科学研究生院(GSLIS)与北卡罗来那大学信息与图书馆学学院(SILS)两所世界顶尖图情学科院校的图书情报人才培养模式,并以此为基础,提出对我国图书情报人才培养的相关启示。通过分析GSLIS与SILS在思维观念、课程设置和教学实践等方面的优点,
基金项目:国家社会科学基金项目“社会科学科研数据的管理服务研究”(项目编号:18BTQ070)。  作者简介:王丹丹(1980-),女,教授,博士,研究方向:科研数据管理。任婧媛(1994-),女,硕士研究生,研究方向:科研数据管理。吴思洁(1996-),女,硕士研究生,研究方向:科研数据管理。  摘要:[目的/意义]对德国社会科学数据管理与服务平台SowiDataNet|Datorium进行研究
摘 要:[目的/意义]传染病传播往往伴随着谣言,新发突发传染病更是如此。相应地,疾病防控过程同时也是谣言控制过程。对于谣言控制而言,理解其产生机制与传播规律具有基础意义。[方法/过程]基于疾病传染与谣言传播模型,通过引入创新扩散视角,提出了新发突发传染病驱动的谣言传播描述框架,构造了个体层面上的数学模型。在实验设计的基础之上,利用智能体建模技术展开了系统的仿真实验。[结果/结论]基于仿真实验数据的
〔摘要〕网络信息生态系统具有由信息人、信息人种群、信息群落、信息生态系统所构成的层次型结构,这样的结构在各个行业都是普遍存在的。了解行业结构,采取协同信息服务,有助于在行业内实现服务质量的提升。首先要清晰地界定信息群落,其次要分清信息人种群,然后寻找到为信息人服务的最佳方式。以旅游行业为例,因为旅游的六大要素涵盖了“吃、住、行、游、购、娱”几个环节,所以各个环节需要紧密协作。旅游业的各类主体进行合
仍有长路待远行在线教育已进入深水区,最后谁能占领高地?  2020年初发生的新冠肺炎疫情,如同一场席卷全球的风暴,没有哪个行业能免受其冲击。教育作为民生的重点领域,受到的影响无疑是深刻而具有启发性的。学生们因防疫要求不能参与线下上课,但学业却不可能终止,平日里的补课、兴趣班等自然也不想落下,在线教育成为了自然的选择。在这种背景下,在线教育产业延续近两年的风头,成了众多投资人竞相入场的“金矿”。  
〔摘要〕建立改进的CODA模型来分析研究个体观点可信度及倾向性的形成和变化过程,模拟并揭示群体观点极化的演化条件及演化过程。研究结果显示,高可信度(ρj=0.7-0.9)演化情况下个体最终形成集群,而低可信度(ρj=0.2-0.4)个体观点呈现分散状态。高、低可信度的差值越大,网络观点演化效率越明显;高可信度个体推动了群体极化现象的发生;而当低可信度值低于0.2时,也会出现群体极化现象。进一步探讨
摘 要:[目的/意义]当突发公共卫生事件发生,社交媒体中相关信息可信度的重要性便凸显出来。以微信为例,提出社交媒体中的突发公共卫生事件信息可信度影响因素,以期为用户、平台以及国家信息治理部门提供相关建议。[研究设计/方法]基于问卷调查数据,从信息用户、信息来源、信息内容和信息环境4个维度对社交媒体中的突发公共卫生事件信息可信度影响因素进行探索研究。[结论/发现]研究表明,内容客观性、用户信任倾向、
同一种鸟儿,在不同的国家往往有着不同的境遇。  喜鹊和乌鸦作为日常生活中常见的鸟类,与人们的生活关系密切,而同属于鸟类中智力较高的鸦科,它们也凭“实力”为自己增添了不少传说故事。  说到中外文化的不同,“喜鹊”大概要算其中最为鲜明的代表之一。如果细究起来,无论是英语的“magpie”还是俄语的“сорока”其实翻译成“鹊”更加合适,“喜鹊”这个名字,往往给人们一种先入为主的“报喜”印象,在中国人