论文部分内容阅读
中图分类号TP3文献标识码A文章编号1673-9671-(2010)012- 0102-01
1 XML语言的概述
XML是由World Wide Web组织(W3C)定义的元语言,是用无格式文本描述结构化数据的一组规则和准则集合。XML制定的主要目的是为弥补HTML语言(Hyper Text Markup Language,HTML)的不足,以便更好地在互联网上处理或传送文件资料。
2 标记语言中的SGML和HTML
XML称为可扩展标记语言,其本质也是一种标记语言,因此了解标记语言及其与GML、ML、XML的关系对我们深入探讨XML是很有帮助的。标记语言是利用标记(tag)来对欲描述的信息进行标示的一种语言。标记语言不同于程序语言会产生程序或者应用,标记语言只产生文档。设有如下的文本片段:
哈尔滨商业大学
哈尔滨利民开发区学院路11号
150020
就这样看来,我们并不能确定这段文本是什么含义,如果我们加上标注,段文本将变成以下格式:
<学校>哈尔滨商业大学学校>
<地址>哈尔滨利民开发区学院路11号地址>
<邮编>150020邮编>
加上了标记(如<地址>地址>等)之后,这段文本的内容就有了明确的含义,标记语言的目的就在于此。标记语言是用来描述文档的内容或数据的,它只是简单地描述文本本身,而并没有对描述文本的格式做出任何限定。因为描述文本的格式并不是标记语言的描述范围,通常情况下,文档都由接收方或用户按照自身的性质来决定其输出或显示的结构,因此文档的提供者不需指定文本如何呈现给用户。
在标记语言的理论基础之上,IBM公司的研究人员于20世纪60年代开发了一种称为通用标记语言(General Markup Language,GML)的元语言,后来被国际标准化组织采纳为I S O ICI I标准(ISO 8879),并定名为标准通用标记语言(Standard General Markup Language,SGML)。SGML主要适用于电子文档交换、文档管理和文档发布,目前已经成为大型复杂文档交换的事实标准,许多组织都将SGML作为文档描述和输出的语言。尽管SGML功能强大,但它在使用上非常复杂,而且应用范围也很广,因此实现和维护成本过高,因而在一定程序上制约了其应用和发展。
随着对SGML进行简化处理,兼具标记语言和超链接的理论基础提出的HTML语言对国际互联网的发展和壮大起到重要的作用。但是HTML语言也有其自身的局限性,随着网络的发展,HTML的内容显得过于简化,并且其内容或数据的描述和显示描述的信息存放在一起,没有单独保存,这种特性使得它越来越无法满足新的应用。其主要的缺限有:
1)结构性不足。无法直接标出资料名称与资料内容间的结构关联,不便于进行资料交换和搜索应用。
2)扩展性不足。由于不同的网页浏览器采用不同的标签,而HTML本身是不可扩展的,其标签是无法自定义的,这就体现出了HTML延伸扩展性上的不足。
3)验证力不足。由于其结构性上存在不足,因此也无法验证资料的结构是否正确。
4)可重用性不高。由于HTML没有将文件的内容与显示格式分开保存,单独管理。因此当文件的内容发生变动时,或有不同形式的版本均要进行转换,才能使用,从而降低了程序的应用弹性及可重用性。
可以看出,HTML是一种显示资料内容的语言,但是不能很好的描述HTML标签中所包含的真正涵意,因而不利于网络资料交换和数据搜索。W3C XML工作组的主席Jon Bosak总结到,在HTML中无法实现以下四类应用,必须要靠XML才能完成:(1)需要Web客户在两个或多个不同数据库之前跨平台操作的应用。(2)试图由Web客户分担大比例的Web服务器处理任务的应用。(3)需要向Web客户呈现同一数据对不同用户的相应显示(view)的应用。(4)智能Web代理(agent)试图使发现的信息与个人用户的需求相符合。
3 XML语言的定义
W3C已于1988年2月10日发布XML1.0规范,以下是W3C对XML的定义:“XML是一连串设计文字格式的规则,(亦可视为准则或协定)用来帮助结构化数据。XML不是程序语言,不需要是个程序设计师就可以使用或学习它。XML可使计算机很容易就可以产生及读取数据,并确保数据结构是精确的。”
凡是使用XML来标示(markup)的电子文件,即可称其为XML文件,该文件可通过浏览器在网页中显示出来,其数据内容可包含文数字、图片、影像及EXCEL电子表格。XML是一种数据交换标准(specification),如果电子文件都通过XML这个共同的标准语言进行标示,即可实现在不同的使用接口、数据库、应用系统上均可轻易的交换数据,提高效率并减少错误发生的可能性。
4 XML语言的技术特点
XML是一种描述资料或数据的标准语言,它具有很大的扩展性,并且可以将所表示文件的结构及内容以结构化的方式展现,而限制其显示的格式,并且将资料的内容、结构和显示格式分开,单独保存。XML主要有以下特点:
1)XML文档显著的特点是信息或数据的描述与显示是分开的, XML文档的主要任务是定义内容本身的结构。对信息的处理和显示是通过样式表(XSL或CSS)实现的。将信息显示和对信息的处理隔离开来,可以使不同来源的信息进行整合,让所有信息在中间层次转换成XML(或者已经是XML格式的),然后在线交换并对信息进行处理,最后根据用户的需求和特性以特定格式将信息输出给用户。
2)XML具有较强的开放性和可扩展性。可以无限量的定义标记。它提供了一个结构化标记信息的架构,用户可以依据自己的需求随时定义新的标记,在很大程序上拓展了可用标记的范围。
3)XML文档具有可验证的特性。在XML文档中对应的DTD,可以验证XML文档中数据在结构上是否正确和标记使用上是否规范,因为在制定DTD时一切早已定义完成。这样,我们不用等到数据在使用阶段,而是在数据形成阶段,就能对数据的是否有效和是否正确进行部分检验,从而提高了数据的可靠性和可用性。
1 XML语言的概述
XML是由World Wide Web组织(W3C)定义的元语言,是用无格式文本描述结构化数据的一组规则和准则集合。XML制定的主要目的是为弥补HTML语言(Hyper Text Markup Language,HTML)的不足,以便更好地在互联网上处理或传送文件资料。
2 标记语言中的SGML和HTML
XML称为可扩展标记语言,其本质也是一种标记语言,因此了解标记语言及其与GML、ML、XML的关系对我们深入探讨XML是很有帮助的。标记语言是利用标记(tag)来对欲描述的信息进行标示的一种语言。标记语言不同于程序语言会产生程序或者应用,标记语言只产生文档。设有如下的文本片段:
哈尔滨商业大学
哈尔滨利民开发区学院路11号
150020
就这样看来,我们并不能确定这段文本是什么含义,如果我们加上标注,段文本将变成以下格式:
<学校>哈尔滨商业大学学校>
<地址>哈尔滨利民开发区学院路11号地址>
<邮编>150020邮编>
加上了标记(如<地址>地址>等)之后,这段文本的内容就有了明确的含义,标记语言的目的就在于此。标记语言是用来描述文档的内容或数据的,它只是简单地描述文本本身,而并没有对描述文本的格式做出任何限定。因为描述文本的格式并不是标记语言的描述范围,通常情况下,文档都由接收方或用户按照自身的性质来决定其输出或显示的结构,因此文档的提供者不需指定文本如何呈现给用户。
在标记语言的理论基础之上,IBM公司的研究人员于20世纪60年代开发了一种称为通用标记语言(General Markup Language,GML)的元语言,后来被国际标准化组织采纳为I S O ICI I标准(ISO 8879),并定名为标准通用标记语言(Standard General Markup Language,SGML)。SGML主要适用于电子文档交换、文档管理和文档发布,目前已经成为大型复杂文档交换的事实标准,许多组织都将SGML作为文档描述和输出的语言。尽管SGML功能强大,但它在使用上非常复杂,而且应用范围也很广,因此实现和维护成本过高,因而在一定程序上制约了其应用和发展。
随着对SGML进行简化处理,兼具标记语言和超链接的理论基础提出的HTML语言对国际互联网的发展和壮大起到重要的作用。但是HTML语言也有其自身的局限性,随着网络的发展,HTML的内容显得过于简化,并且其内容或数据的描述和显示描述的信息存放在一起,没有单独保存,这种特性使得它越来越无法满足新的应用。其主要的缺限有:
1)结构性不足。无法直接标出资料名称与资料内容间的结构关联,不便于进行资料交换和搜索应用。
2)扩展性不足。由于不同的网页浏览器采用不同的标签,而HTML本身是不可扩展的,其标签是无法自定义的,这就体现出了HTML延伸扩展性上的不足。
3)验证力不足。由于其结构性上存在不足,因此也无法验证资料的结构是否正确。
4)可重用性不高。由于HTML没有将文件的内容与显示格式分开保存,单独管理。因此当文件的内容发生变动时,或有不同形式的版本均要进行转换,才能使用,从而降低了程序的应用弹性及可重用性。
可以看出,HTML是一种显示资料内容的语言,但是不能很好的描述HTML标签中所包含的真正涵意,因而不利于网络资料交换和数据搜索。W3C XML工作组的主席Jon Bosak总结到,在HTML中无法实现以下四类应用,必须要靠XML才能完成:(1)需要Web客户在两个或多个不同数据库之前跨平台操作的应用。(2)试图由Web客户分担大比例的Web服务器处理任务的应用。(3)需要向Web客户呈现同一数据对不同用户的相应显示(view)的应用。(4)智能Web代理(agent)试图使发现的信息与个人用户的需求相符合。
3 XML语言的定义
W3C已于1988年2月10日发布XML1.0规范,以下是W3C对XML的定义:“XML是一连串设计文字格式的规则,(亦可视为准则或协定)用来帮助结构化数据。XML不是程序语言,不需要是个程序设计师就可以使用或学习它。XML可使计算机很容易就可以产生及读取数据,并确保数据结构是精确的。”
凡是使用XML来标示(markup)的电子文件,即可称其为XML文件,该文件可通过浏览器在网页中显示出来,其数据内容可包含文数字、图片、影像及EXCEL电子表格。XML是一种数据交换标准(specification),如果电子文件都通过XML这个共同的标准语言进行标示,即可实现在不同的使用接口、数据库、应用系统上均可轻易的交换数据,提高效率并减少错误发生的可能性。
4 XML语言的技术特点
XML是一种描述资料或数据的标准语言,它具有很大的扩展性,并且可以将所表示文件的结构及内容以结构化的方式展现,而限制其显示的格式,并且将资料的内容、结构和显示格式分开,单独保存。XML主要有以下特点:
1)XML文档显著的特点是信息或数据的描述与显示是分开的, XML文档的主要任务是定义内容本身的结构。对信息的处理和显示是通过样式表(XSL或CSS)实现的。将信息显示和对信息的处理隔离开来,可以使不同来源的信息进行整合,让所有信息在中间层次转换成XML(或者已经是XML格式的),然后在线交换并对信息进行处理,最后根据用户的需求和特性以特定格式将信息输出给用户。
2)XML具有较强的开放性和可扩展性。可以无限量的定义标记。它提供了一个结构化标记信息的架构,用户可以依据自己的需求随时定义新的标记,在很大程序上拓展了可用标记的范围。
3)XML文档具有可验证的特性。在XML文档中对应的DTD,可以验证XML文档中数据在结构上是否正确和标记使用上是否规范,因为在制定DTD时一切早已定义完成。这样,我们不用等到数据在使用阶段,而是在数据形成阶段,就能对数据的是否有效和是否正确进行部分检验,从而提高了数据的可靠性和可用性。