论文部分内容阅读
在网络教学资源建设中,元数据互操作作为解决网络教学资源整合问题的有效方案,受到了人们的普遍关注。为了提高元数据互操作的精度,我们必须对网络教学资源中的各种元数据有一个清晰的认识,必须对各种元数据的元素或字段设置、数据结构以及语义界定等方面进行比较分析。目前网络教学资源中的主流元数据主要有Dublin Core、LOM和MARC三种,其他元数据大多是在这三种的基础上或复用、或扩展而形成的。LOM是学习对象元数据;MARC是图书馆机读目录,是一种文献书目元数据,由于图书馆丰富的馆藏数字化信息资源是网络教学资源建设中(尤其在高校)不可或缺的重要组成部分,因此MARC元数据也是网络教育技术研究的对象;Dublin Core则是一种描述、组织和检索网络资源的元数据,正在成为网络教学资源和数字图书馆的主流元数据。
1 Dublin Core、LOM和MARC简述
1.1 Dublin Core
Dublin Core(都柏林核心,简称DC)是美国OCLC的DCMI(都柏林核心元数据首创计划)为标识数字化信息资源、支持网络检索而创建的目录模式的元数据格式,通过国际性合作逐步完善,现已成为InternetRFC2413和美国国家信息标准Z39.85[1]。它分为简单DC和复杂DC。简单DC由15个元素组成,复杂DC则是在简单DC的基础上辅以DC修饰词,对元素语义提供进一步的限定和修饰。这15个元素依据其所描述内容的类别和范围可分为三组:
(1) 对资源内容的描述。包括Title(题名)、Subject(主题)、Description(描述)、Source(来源)、Language(语种)、Relation(关联)、Coverage(覆盖范围)。
(2)对知识产权的描述。包括Creator(创建者)、Publisher(出版者)、Contributor(贡献者)、Rights(权限管理)。
(3)对外部属性的描述。包括Date(日期)、Type (类型)、Format(格式)、Identifier(标识)。
DC-Education是DC元数据在教育领域内的扩展集。DC-Education是美国OCLC的DCMI(都柏林核心元数据首创计划)教育资源工作组直接将Dublin Core元数据集复用到DCED命名域上而形成的一个DCED元数据集,并作了如下扩展:
(1)补充两个新元素,即audience(受众)和standard(标准)。前者指使用资源的用户种类,后者指与资源相关的教育或训练标准。
(2)为DC.relation扩展一个限制属性conforms to,指资源所遵循的标准。
(3)复用IEEE LOM的三个元素:Interactivity Type(交互类型)、Interactivity Type Level(交互程度)和Typical Learning Time(通常学习时间)。
1.2 IEEE LOM
IEEE LOM(IEEE Learning Object Metadata,学习对象元数据)由IEEE学习技术标准委员会P1484.12学习对象元数据工作组建立,用以完整、充分地揭示包括多媒体内容、教育内容、教育软件和工具、参考资料等学习对象的属性特征,如类型、作者、所有者、发行类型、格式、应用环境、教学要求等[2]。
LOM规范所建立的数据模型是学习对象属性的一个最小集合,包括General (通用)、Lifecycle(生命周期)、Meta-Metadata(宏元数据)、Technical(技术)、Educational(教育)、Rights(权利)、Relation(关系)、Annotation(注解)、Classification(分类)九大基本类别,每个类别下设置有若干元素,总共60个元素,每个元素定义了名称、解释、多值性、域、类型、附注和示例,许多元素可自动生成或通过模板生成。利用LOM数据模型可以对学习对象的一些公用属性进行描述。同时,对于某些数据元素,LOM规范直接给出了推荐的取值集合(称为词汇表),以获得更好的数据互换性。我国的《学习对象元数据规范(CELTS-3)》是IEEE LOM模型的译稿,并根据元素的通用性确定了必需数据元素和可选数据元素。
LOM规范为学习对象的属性描述还提供了一个语义模型,用于支持信息的交换。但它并不涉及任何的实现问题,包括编码绑定、API绑定、用户界面以及学习对象如何使用等等。这样做的目的在于通过建立一个通用的数据模型,保证语义模型的独立性与绑定的分离,并使元数据的不同绑定有较好的语义互操作性。
1.3 MARC
长期以来,图书馆界使用MARC(Machine Readable Cataloging,机读目录)来著录、描述和管理文献资料,已经逐步发展为成熟、复杂的元数据标准。各国在ISBD的基础上发展了各自的MARC国家标准,我国的CNMARC是在国际通用的UNIMARC基础上发展起来的。MARC数据结构严密,MARC记录遵循ISO2709标准,由记录头标区、记录目次区、记录数据区和记录分隔符四个部分构成。头标区描述整个记录的基本参数、固定长度;目次区由若干个目次项和末尾一个字段分隔符组成,总长为12N l(N为目次项的个数);数据区由多个数据字段组成,实际记载著录数据。数据字段可能是定长或者变长的,数据字段可以包含指示符和若干子字段,许多数据字段可选,有些数据字段可重复。
为了适应电子资源的增长和网络技术的发展,MARC 格式也在进行改变。尤其是“856电子资源定位与存取”字段的增补,使MARC可以对电子资源的地址信息及存取该数据所要求的条件等进行描述。1999年由美国国会图书馆和加拿大国家图书馆联合推出的MARC2l,对网络信息资源的编目问题给予了更充分的考虑[3]。编制者甚至己考虑到MARC21与其它元数据格式之间的映射关系,如与Dublin Core、GILS、Digital Geospatial Metadata以及USMARC到Universal Character Set的映射等。正是因为MARC一直在升级与完善,目前绝大多数集成化图书馆系统都已开始利用MARC支持网络资源发现和检索功能。CNMARC中有关网络资源编目的条文尚为面世,但国内图书馆完全可以套用UNIMARC中的有关规定来开展这方面的工作,并在不断的实践中为相关正式条文的出台奠定基础。
2 Dublin Core、LOM和MARC的差异与相关
尽管网络教学资源与图书馆数字资源具有不同的资源特性和应用需求,但是它们本质上都是数字化信息资源,而且在应用层面上有着相互整合、共享的趋势。因此,Dublin Core、LOM和MARC三种元数据之间既有差异性,也存在着一定的相关性。大体而言,它们的差异与相关主要体现在以下几个方面:
2.1 描述对象
DC是为网络资源或者说是数字资源的描述而制定的,旨在揭示各类型电子文献的内容和其他特性,进而达到网络资源的组织、分类、索引等目的。
LOM是为揭示计算机辅助教学、网络教学中的学习对象的属性特征而制定的,目的在于使用最小属性集完成对多媒体内容、教育内容、教育软件和工具、参考资料等学习对象的管理、检索和评估。
MARC格式比较适用于印刷型文献信息资源,但随着“856电子资源定位与存取”字段的增补以及MARC21的推出,MARC格式也可描述电子资源,并成为数字图书馆建设中的主流元数据。
2.2 元素设置及结构
由于研究重点各自不同,Dublin Core、LOM和MARC在元素的设置及结构上有着各自不同的关注点。Dublin Core和MARC主要关注如何准确、完整地揭示描述对象的客观属性,例如对Title、Creator、Subject 、Description、Source、Language、Publisher、Type、Format等信息单元进行了比较完备的元素(或字段)设置,但是对资源利用的目的性则不可能做过多考虑;而LOM必须关注教育过程中资源利用的目的、交互和效应,有关描述对象的客观属性则服从于教育目的来进行元素设置。在LOM中,General、Lifecycle、Meta-Metadata、Technical等类别主要是基于描述对象的客观属性,而Educational、Rights、Annotation等类别主要则是基于教育目的。
同时,Dublin Core、LOM和MARC在元素的设置及结构上还存在着较大的交叉面和共性。Dublin Core被称为“MARC格式的网络缩微版”,在元素设置上沿用了MARC的字段设置,并使描述格式相对简化;DC-Education基于教学资源的特性,在Dublin Core的基础上补充了audience和standard两个新元素,并复用了LOM中的Interactivity Type、Interactivity Type Level和Typical Learning Time三个元素;LOM与MARC分别属于教育和图书馆两个不同专业系统,差别较大,但是将LOM中有关客观属性的元素与MARC字段进行比较,我们依然可以发现它们之间的交叉面和共性。总之,这些元数据的交叉面和共性为网络教学资源之间的互操作提供了资源描述、数据库设计、软件开发、网络编程等技术层面上的可行性。
1 Dublin Core、LOM和MARC简述
1.1 Dublin Core
Dublin Core(都柏林核心,简称DC)是美国OCLC的DCMI(都柏林核心元数据首创计划)为标识数字化信息资源、支持网络检索而创建的目录模式的元数据格式,通过国际性合作逐步完善,现已成为InternetRFC2413和美国国家信息标准Z39.85[1]。它分为简单DC和复杂DC。简单DC由15个元素组成,复杂DC则是在简单DC的基础上辅以DC修饰词,对元素语义提供进一步的限定和修饰。这15个元素依据其所描述内容的类别和范围可分为三组:
(1) 对资源内容的描述。包括Title(题名)、Subject(主题)、Description(描述)、Source(来源)、Language(语种)、Relation(关联)、Coverage(覆盖范围)。
(2)对知识产权的描述。包括Creator(创建者)、Publisher(出版者)、Contributor(贡献者)、Rights(权限管理)。
(3)对外部属性的描述。包括Date(日期)、Type (类型)、Format(格式)、Identifier(标识)。
DC-Education是DC元数据在教育领域内的扩展集。DC-Education是美国OCLC的DCMI(都柏林核心元数据首创计划)教育资源工作组直接将Dublin Core元数据集复用到DCED命名域上而形成的一个DCED元数据集,并作了如下扩展:
(1)补充两个新元素,即audience(受众)和standard(标准)。前者指使用资源的用户种类,后者指与资源相关的教育或训练标准。
(2)为DC.relation扩展一个限制属性conforms to,指资源所遵循的标准。
(3)复用IEEE LOM的三个元素:Interactivity Type(交互类型)、Interactivity Type Level(交互程度)和Typical Learning Time(通常学习时间)。
1.2 IEEE LOM
IEEE LOM(IEEE Learning Object Metadata,学习对象元数据)由IEEE学习技术标准委员会P1484.12学习对象元数据工作组建立,用以完整、充分地揭示包括多媒体内容、教育内容、教育软件和工具、参考资料等学习对象的属性特征,如类型、作者、所有者、发行类型、格式、应用环境、教学要求等[2]。
LOM规范所建立的数据模型是学习对象属性的一个最小集合,包括General (通用)、Lifecycle(生命周期)、Meta-Metadata(宏元数据)、Technical(技术)、Educational(教育)、Rights(权利)、Relation(关系)、Annotation(注解)、Classification(分类)九大基本类别,每个类别下设置有若干元素,总共60个元素,每个元素定义了名称、解释、多值性、域、类型、附注和示例,许多元素可自动生成或通过模板生成。利用LOM数据模型可以对学习对象的一些公用属性进行描述。同时,对于某些数据元素,LOM规范直接给出了推荐的取值集合(称为词汇表),以获得更好的数据互换性。我国的《学习对象元数据规范(CELTS-3)》是IEEE LOM模型的译稿,并根据元素的通用性确定了必需数据元素和可选数据元素。
LOM规范为学习对象的属性描述还提供了一个语义模型,用于支持信息的交换。但它并不涉及任何的实现问题,包括编码绑定、API绑定、用户界面以及学习对象如何使用等等。这样做的目的在于通过建立一个通用的数据模型,保证语义模型的独立性与绑定的分离,并使元数据的不同绑定有较好的语义互操作性。
1.3 MARC
长期以来,图书馆界使用MARC(Machine Readable Cataloging,机读目录)来著录、描述和管理文献资料,已经逐步发展为成熟、复杂的元数据标准。各国在ISBD的基础上发展了各自的MARC国家标准,我国的CNMARC是在国际通用的UNIMARC基础上发展起来的。MARC数据结构严密,MARC记录遵循ISO2709标准,由记录头标区、记录目次区、记录数据区和记录分隔符四个部分构成。头标区描述整个记录的基本参数、固定长度;目次区由若干个目次项和末尾一个字段分隔符组成,总长为12N l(N为目次项的个数);数据区由多个数据字段组成,实际记载著录数据。数据字段可能是定长或者变长的,数据字段可以包含指示符和若干子字段,许多数据字段可选,有些数据字段可重复。
为了适应电子资源的增长和网络技术的发展,MARC 格式也在进行改变。尤其是“856电子资源定位与存取”字段的增补,使MARC可以对电子资源的地址信息及存取该数据所要求的条件等进行描述。1999年由美国国会图书馆和加拿大国家图书馆联合推出的MARC2l,对网络信息资源的编目问题给予了更充分的考虑[3]。编制者甚至己考虑到MARC21与其它元数据格式之间的映射关系,如与Dublin Core、GILS、Digital Geospatial Metadata以及USMARC到Universal Character Set的映射等。正是因为MARC一直在升级与完善,目前绝大多数集成化图书馆系统都已开始利用MARC支持网络资源发现和检索功能。CNMARC中有关网络资源编目的条文尚为面世,但国内图书馆完全可以套用UNIMARC中的有关规定来开展这方面的工作,并在不断的实践中为相关正式条文的出台奠定基础。
2 Dublin Core、LOM和MARC的差异与相关
尽管网络教学资源与图书馆数字资源具有不同的资源特性和应用需求,但是它们本质上都是数字化信息资源,而且在应用层面上有着相互整合、共享的趋势。因此,Dublin Core、LOM和MARC三种元数据之间既有差异性,也存在着一定的相关性。大体而言,它们的差异与相关主要体现在以下几个方面:
2.1 描述对象
DC是为网络资源或者说是数字资源的描述而制定的,旨在揭示各类型电子文献的内容和其他特性,进而达到网络资源的组织、分类、索引等目的。
LOM是为揭示计算机辅助教学、网络教学中的学习对象的属性特征而制定的,目的在于使用最小属性集完成对多媒体内容、教育内容、教育软件和工具、参考资料等学习对象的管理、检索和评估。
MARC格式比较适用于印刷型文献信息资源,但随着“856电子资源定位与存取”字段的增补以及MARC21的推出,MARC格式也可描述电子资源,并成为数字图书馆建设中的主流元数据。
2.2 元素设置及结构
由于研究重点各自不同,Dublin Core、LOM和MARC在元素的设置及结构上有着各自不同的关注点。Dublin Core和MARC主要关注如何准确、完整地揭示描述对象的客观属性,例如对Title、Creator、Subject 、Description、Source、Language、Publisher、Type、Format等信息单元进行了比较完备的元素(或字段)设置,但是对资源利用的目的性则不可能做过多考虑;而LOM必须关注教育过程中资源利用的目的、交互和效应,有关描述对象的客观属性则服从于教育目的来进行元素设置。在LOM中,General、Lifecycle、Meta-Metadata、Technical等类别主要是基于描述对象的客观属性,而Educational、Rights、Annotation等类别主要则是基于教育目的。
同时,Dublin Core、LOM和MARC在元素的设置及结构上还存在着较大的交叉面和共性。Dublin Core被称为“MARC格式的网络缩微版”,在元素设置上沿用了MARC的字段设置,并使描述格式相对简化;DC-Education基于教学资源的特性,在Dublin Core的基础上补充了audience和standard两个新元素,并复用了LOM中的Interactivity Type、Interactivity Type Level和Typical Learning Time三个元素;LOM与MARC分别属于教育和图书馆两个不同专业系统,差别较大,但是将LOM中有关客观属性的元素与MARC字段进行比较,我们依然可以发现它们之间的交叉面和共性。总之,这些元数据的交叉面和共性为网络教学资源之间的互操作提供了资源描述、数据库设计、软件开发、网络编程等技术层面上的可行性。