论文部分内容阅读
〔摘 要〕 语义网在最近二十年间获得了长足的发展,但目前学界和业界对语义网定义及其理论框架的认识仍模糊不清,相关研究多以技术支持为主,而鲜有系统深入的理论分析,这不利于语义网的长期发展。为此,本文首先通过对符号三角模型的研究与扩展,选定若干与语义网相关的核心原始概念;然后,以此为基础比较分析三类典型的语义网定义;最后通过本体分析,深入讨论语义网的资源网络本质属性。基于以上讨论和分析结果,本文将给出以其核心属性为构成要素的语义网定义,并基于此定义重构语义网的理论框架,以期完善当前语义网基础理论体系。
〔关键词〕语义网;符号学;符号三角模型;本体论
DOI:10.3969/j.issn.1008-0821.2017.08.005
〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821(2017)08-0033-08
〔Abstract〕Semantic web has gained considerable development in the last two decades,yet the definition of semantic web and its theoretical framework are still ambigous,the related research was mostly proposed for technical support,and there is few systematic and in-depth theoretical analysis,which is not conducive to the development of semantic web in a long-term. To address this problem,firstly,this paper chose several core primary concepts related to semantic web by discussing and expanding the classic “semiotic triangle”model. Then,based on these primary concepts,it discussed and compared three kinds of typical semantic web definitions. Finally,through ontological analysis,it discussed semantic web as a resource network through its core properties. According to above discussion and analysis,it proposed a new definition of semantic web with its core attributes as the constituent elements,and reconstructed the theoretical framework of semantic web based on this definition,in order to improve the foundamental theoratical framework of semantic web.
〔Key words〕semantic web; semiology;“semiotic triangle”model;ontology
Tim Berners-Lee于1989年、1990年相继发明了万维网(World Wide Web, 3W)和世界上第一个浏览器[1]。利用浏览器和超文本连接技术,用户可以轻松浏览网页,实现“网上冲浪”。历经9年的高速发展,时至1998年,万维网已经在全球范围内普及。但是,通过万维网发布的网页数据一般以自然语言为载体,缺乏结构性,导致机器无法对其进行有效理解和处理。为解决这一问题,语义网(Semantic Web)的概念应运而生[2],在沿袭万维网数据互联共享理念的基础上,从信息发布源头入手,将携带语义的数据以统一预定义的结构化形式发布,进而使得网页内容数据可以高效地被机器理解和处理,使人与机器、机器与机器之间可以进行无障碍的数据交换,实现相关应用的自动化和智能化。
自语义网概?被提出以来,经由万维网联盟(World Wide Web Consortium,W3C)对其进行推广和普及,与其相关的研究发展迅速,并逐渐演化为计算机科学领域的一个重要分支。到目前为止的19?间,很多专家和学者一直致?于语义网的研究与探?,相关的科研成果已经在经济、政治、教育等许多领域得到实践应用。例如,自2007年始,英国广播公司(BBC)开始利用语义网技术,将旗下音乐频道中所涉及艺术家的信息進行自动标注,附加语义,并且相互连接,进而构建了一个关于音乐艺术家的关联数据集[3]。2010年5月,美国政府数据网站data.gov将其约400个数据集部署到现有语义网体系中,英国政府也宣布将采用W3C标准,澳大利亚、新西兰、荷兰等国家也纷纷跟进[4]。2013年,Sergio Miranda等人率先尝试运用语义网技术准确发现MOOC平台中用户的学习数据,实现其教学评价体系的优化设计[5]。
在最近二十年的时间里,语义网领域有了长足的发展,相关的技术标准、描述语言、实现工具、应用实例不断推陈出新,许多学者热衷于探索各种实践应用的可能[6-7]。但是,相比其他传统学科,语义网终归还是一个新生事物,其基础理论体系尚不健全,而且表现出发展迟缓的现状[8],鲜有专家学者专门对其进行梳理、界定和阐释,这对语义网的长远发展极为不利。为缓解这一矛盾,调节当前语义网基础理论体系与实践应用发展的平衡,本文将首先对符号学中的“符号三角”模型进行讨论与扩展,并选定与语义网相关的若干原始概念,作为后文对语义网讨论的基础。然后,基于已选定的这些原始概念,分别讨论和对比三类典型的语义网定义,并给出以其核心属性为构成要素的语义网定义。最后,基于语义网定义,深入讨论语义网作为资源网络的本质属性,并完成语义网理论框架的重构与解释。 1 符号三角的认知与扩展
语义网的核心功能之一就是承载语义,语义即人脑中的概念、想法或意义。一直以来,人类使用语言来记录和传递语义。虽然,不同语言在形式和表述能力上各有特色,但归根结底,语言就是人类社会约定俗成的一种符号系统。这种符号系统包含“能指”和“所指”两个部分,“能指”就是符号的存在形式方面,即语音的连续或者书写的结构,而“所指”就是符号的表述内容方面,即概念、想法或意义[9]。正如索绪尔在《普通语言学教程》一书中指明的那样:“概念和音响形象的结合叫做符号”[10]。语义网也不例外,其所包含的语义也是通过某种语言来承载的,即“描述逻辑语言”。
描述逻辑语言是一种介于自然语言和数理逻辑语言之间的一种语言。它选取了一阶逻辑语言的部分表述能力,定义一组类似于自然语言的符号和规则,并使之对应于一阶逻辑语言的符号和规则。新定义的描述逻辑语言具有一定的结构性,便于计算机高效地处理和分析,同时,这种类似于自然语言的表达使人类可以便利地书写和阅读,从而实现人与机器、机器与机器之间的高效交互。
在语义网框架下,人类对世间万事万物的认识被称为“语义”,通过描述逻辑语言对语义进行记录所形成的语言片段被称之为“语义描述”,语义描述的相互引用和链接就构成了语义网。也就是说,语义网的构建过程就是人类对其周围世界不断认知、对已获得认知进行记录,以及对认知记录的组织管理过程。虽然这一过程涉及诸多要素,且漫长而复杂,但Ogden等人提出的“符号三角(Semiotic Triangle)”模型[11]为探讨和理解该过程的核心内涵提供了独特视角,帮助读者从认知层面对语义网本质有更深层次的理解。
如图1所示,Ogden等人提出的符号三角包含3个方面的内容。三角形的右下角代表着世界上实际存在的事物,随着对世界的观察,人们逐渐认识到有这样一类动物,它们毛茸茸的、性情非常憨厚、是人类忠实的朋友。基于上述观察和认识,人们把这种动物的属性固化成一个类的概念存储到记忆中,图中三角形的上顶角就代表着这样的类概念。有了这样的类概念之后,如果想要表达心中的想法,比如这一例中狗的概念,就需要使用描述语言对其进行指称。图中三角形的左下角就代表着表达概念的语义描述,比如例子中的“Dog”是个英文词汇,这个词汇就和顶角所代表的概念建立了对应的关系。这样,语义描述和类概念之间构成了联系,同时类概念和一组现实中的实体又构成了联系。间接地,一个类概念的语义描述就和某组特定的实体构成了对应关系。
如果两个人对世界上相同的事物形成了相同的概念,并且约定用相同的语义描述来表达相同的概念,那么这两个人之间就可以使用这种语义描述进行沟通和交流。例如,參照图1中讨论的范例,A可以对B说或者写“Dog”这个词汇用以指称自己头脑中的狗的概念,而这个概念有对应着现实世界中的狗;当B听到或者看到这个词汇时就会唤起脑中狗的概念,同样的概念对应着现实世界中同样一组狗的实例。这样,A和B之间就达成了沟通与交流的目的。
在上述符号三角中我们提到了“概念”和“语义描述”,换一组计算机与情报技术领域中的词汇来指称,它们分别对应着人们常说的“信息”和“数据”,而信息和数据也就是语义网所要处理的主要对象。在述符号三角提出之后的九十余年中,许多专家和学者根据这一认知模型,对“信息”的相关概念进行了许多理论研究。Smith[12]和Ferrario[13]等人曾经分别尝试解释什么是“思想”和“概念”。在他们之后Maass[14],Mentor[15]和Jureta[16]等人对“信息对象”进行了深入研究。
在这些学者中,Fortier 和 Kassel (F
〔关键词〕语义网;符号学;符号三角模型;本体论
DOI:10.3969/j.issn.1008-0821.2017.08.005
〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821(2017)08-0033-08
〔Abstract〕Semantic web has gained considerable development in the last two decades,yet the definition of semantic web and its theoretical framework are still ambigous,the related research was mostly proposed for technical support,and there is few systematic and in-depth theoretical analysis,which is not conducive to the development of semantic web in a long-term. To address this problem,firstly,this paper chose several core primary concepts related to semantic web by discussing and expanding the classic “semiotic triangle”model. Then,based on these primary concepts,it discussed and compared three kinds of typical semantic web definitions. Finally,through ontological analysis,it discussed semantic web as a resource network through its core properties. According to above discussion and analysis,it proposed a new definition of semantic web with its core attributes as the constituent elements,and reconstructed the theoretical framework of semantic web based on this definition,in order to improve the foundamental theoratical framework of semantic web.
〔Key words〕semantic web; semiology;“semiotic triangle”model;ontology
Tim Berners-Lee于1989年、1990年相继发明了万维网(World Wide Web, 3W)和世界上第一个浏览器[1]。利用浏览器和超文本连接技术,用户可以轻松浏览网页,实现“网上冲浪”。历经9年的高速发展,时至1998年,万维网已经在全球范围内普及。但是,通过万维网发布的网页数据一般以自然语言为载体,缺乏结构性,导致机器无法对其进行有效理解和处理。为解决这一问题,语义网(Semantic Web)的概念应运而生[2],在沿袭万维网数据互联共享理念的基础上,从信息发布源头入手,将携带语义的数据以统一预定义的结构化形式发布,进而使得网页内容数据可以高效地被机器理解和处理,使人与机器、机器与机器之间可以进行无障碍的数据交换,实现相关应用的自动化和智能化。
自语义网概?被提出以来,经由万维网联盟(World Wide Web Consortium,W3C)对其进行推广和普及,与其相关的研究发展迅速,并逐渐演化为计算机科学领域的一个重要分支。到目前为止的19?间,很多专家和学者一直致?于语义网的研究与探?,相关的科研成果已经在经济、政治、教育等许多领域得到实践应用。例如,自2007年始,英国广播公司(BBC)开始利用语义网技术,将旗下音乐频道中所涉及艺术家的信息進行自动标注,附加语义,并且相互连接,进而构建了一个关于音乐艺术家的关联数据集[3]。2010年5月,美国政府数据网站data.gov将其约400个数据集部署到现有语义网体系中,英国政府也宣布将采用W3C标准,澳大利亚、新西兰、荷兰等国家也纷纷跟进[4]。2013年,Sergio Miranda等人率先尝试运用语义网技术准确发现MOOC平台中用户的学习数据,实现其教学评价体系的优化设计[5]。
在最近二十年的时间里,语义网领域有了长足的发展,相关的技术标准、描述语言、实现工具、应用实例不断推陈出新,许多学者热衷于探索各种实践应用的可能[6-7]。但是,相比其他传统学科,语义网终归还是一个新生事物,其基础理论体系尚不健全,而且表现出发展迟缓的现状[8],鲜有专家学者专门对其进行梳理、界定和阐释,这对语义网的长远发展极为不利。为缓解这一矛盾,调节当前语义网基础理论体系与实践应用发展的平衡,本文将首先对符号学中的“符号三角”模型进行讨论与扩展,并选定与语义网相关的若干原始概念,作为后文对语义网讨论的基础。然后,基于已选定的这些原始概念,分别讨论和对比三类典型的语义网定义,并给出以其核心属性为构成要素的语义网定义。最后,基于语义网定义,深入讨论语义网作为资源网络的本质属性,并完成语义网理论框架的重构与解释。 1 符号三角的认知与扩展
语义网的核心功能之一就是承载语义,语义即人脑中的概念、想法或意义。一直以来,人类使用语言来记录和传递语义。虽然,不同语言在形式和表述能力上各有特色,但归根结底,语言就是人类社会约定俗成的一种符号系统。这种符号系统包含“能指”和“所指”两个部分,“能指”就是符号的存在形式方面,即语音的连续或者书写的结构,而“所指”就是符号的表述内容方面,即概念、想法或意义[9]。正如索绪尔在《普通语言学教程》一书中指明的那样:“概念和音响形象的结合叫做符号”[10]。语义网也不例外,其所包含的语义也是通过某种语言来承载的,即“描述逻辑语言”。
描述逻辑语言是一种介于自然语言和数理逻辑语言之间的一种语言。它选取了一阶逻辑语言的部分表述能力,定义一组类似于自然语言的符号和规则,并使之对应于一阶逻辑语言的符号和规则。新定义的描述逻辑语言具有一定的结构性,便于计算机高效地处理和分析,同时,这种类似于自然语言的表达使人类可以便利地书写和阅读,从而实现人与机器、机器与机器之间的高效交互。
在语义网框架下,人类对世间万事万物的认识被称为“语义”,通过描述逻辑语言对语义进行记录所形成的语言片段被称之为“语义描述”,语义描述的相互引用和链接就构成了语义网。也就是说,语义网的构建过程就是人类对其周围世界不断认知、对已获得认知进行记录,以及对认知记录的组织管理过程。虽然这一过程涉及诸多要素,且漫长而复杂,但Ogden等人提出的“符号三角(Semiotic Triangle)”模型[11]为探讨和理解该过程的核心内涵提供了独特视角,帮助读者从认知层面对语义网本质有更深层次的理解。
如图1所示,Ogden等人提出的符号三角包含3个方面的内容。三角形的右下角代表着世界上实际存在的事物,随着对世界的观察,人们逐渐认识到有这样一类动物,它们毛茸茸的、性情非常憨厚、是人类忠实的朋友。基于上述观察和认识,人们把这种动物的属性固化成一个类的概念存储到记忆中,图中三角形的上顶角就代表着这样的类概念。有了这样的类概念之后,如果想要表达心中的想法,比如这一例中狗的概念,就需要使用描述语言对其进行指称。图中三角形的左下角就代表着表达概念的语义描述,比如例子中的“Dog”是个英文词汇,这个词汇就和顶角所代表的概念建立了对应的关系。这样,语义描述和类概念之间构成了联系,同时类概念和一组现实中的实体又构成了联系。间接地,一个类概念的语义描述就和某组特定的实体构成了对应关系。
如果两个人对世界上相同的事物形成了相同的概念,并且约定用相同的语义描述来表达相同的概念,那么这两个人之间就可以使用这种语义描述进行沟通和交流。例如,參照图1中讨论的范例,A可以对B说或者写“Dog”这个词汇用以指称自己头脑中的狗的概念,而这个概念有对应着现实世界中的狗;当B听到或者看到这个词汇时就会唤起脑中狗的概念,同样的概念对应着现实世界中同样一组狗的实例。这样,A和B之间就达成了沟通与交流的目的。
在上述符号三角中我们提到了“概念”和“语义描述”,换一组计算机与情报技术领域中的词汇来指称,它们分别对应着人们常说的“信息”和“数据”,而信息和数据也就是语义网所要处理的主要对象。在述符号三角提出之后的九十余年中,许多专家和学者根据这一认知模型,对“信息”的相关概念进行了许多理论研究。Smith[12]和Ferrario[13]等人曾经分别尝试解释什么是“思想”和“概念”。在他们之后Maass[14],Mentor[15]和Jureta[16]等人对“信息对象”进行了深入研究。
在这些学者中,Fortier 和 Kassel (F