论文部分内容阅读
非结构化数据库是由我国著名学者吴广印针对关系数据库模型过于简单,不便表达复杂的嵌套需要以及支持数据类型有限等局限,从数据模型入手而提出的全面基于Internet的新型应用数据库理论。
非结构化数据库理论认为:在信息社会,所有信息大体上可以分为两类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息根本无法用数字或者统一的结构表示,例如,文本、图象、声音乃至网页等,我们称之为非结构化数据。非结构化数据包括结构化数据,但又不止是结构化数据;结构化数据属于非结构化数据,是非结构化数据的特例。一般来说,在人们的认识之中,关系数据库处理的对象最主要的特征就是数据的结构化。
然而,随着网络技术和软件技术的飞速发展,特别是Internet和Intranet技术的发展,使得非结构化数据的应用日趋扩大。擅长于处理结构化数据的关系数据库随着随着非结构化数据应用领域的不断拓展,开始暴露出越来越多的局限。特别是关系数据库对数据类型的处理只局限于数字、字符等,对非结构化信息的处理只是停留在简单的二进制代码文件的存储,已经不适应用户从简单的存储上升为识别、检索和深入加工的要求;而基于Internet的应用尤其使关系数据库相形见绌。因而数据库技术也相应进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
非结构化数据库以北京国信贝斯(iBASE)软件有限公司的iBASE数据库为代表。它从数据模型入手,采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化或者说任意格式的字段,从而突破关系数据库非常严格的表结构,解决了关系数据库模型过于简单,不便表达复杂嵌套的问题;同时iBASE数据库将所有数据管理纳入资源管理范畴,将所有数据定义为可管理的资源,通过iBASE的资源管理器实现对各种复杂数据的管理,以数据库管理系统为代表的非结构化数据库是国信贝斯拥有自主版权的专门处理非结构化信息、全文信息、多媒体信息和其它海量信息的数据库管理系统。非结构化数据库区别于传统的其它数据库之处,在于它将所有数据定义为资源,而这一资源可以是网页、文本、与字处理文档类似或者就是整个关系数据库。通过对资源的管理,非结构化数据库实现数据库系统从数据管理到内容管理的转化。
具体说来,同关系数据库相比,非结构化数据库系统的特点主要反映在以下方面:
1.iBASE 数据库系统的数据库结构定义是相对灵活的,解决了变长字段和重复字段的定义问题,使一个字段可以存贮变长的信息,但是却能通过特有的索引技术实现对指定字段的检索。iBASE 数据库大部分数据项的内容长度变化较大,因此要求变长存储管理。iBASE 数据库的一些数据项具有多值性。
2.iBASE数据库在数据注录格式方面,有国际标准(ISO-2709,MARC,CCF)和国内标准(CCFC)格式。这些格式对于数据库标准化和数据交换与共享是十分重要的。这些标准要求数据项中可包含数据子项(子字段),文献数据库管理系统必需支持子字段的处理。
3.文献数据库在数据查询方面要求较高,iBASE数据库不仅能够对整个字段查询,要求子字段、关键词、自由词、标引词、位置词和全文任意词的单项及组配检索。
4.iBASE数据库处理的对象多为海量数据,不仅检索功能强而且检索速度快,在检索速度方面一般不受文献量(上千万条记录)的影响。
5.数据库的查全率和查准率是评价文献数据库系统的重要指标。所谓查准率指的命中文献和查询条件的匹配准确程度,查全率是指命中结果相对整个数据库的内容是否全面。iBASE数据库提供了ANY词检索方式,这也是一种特定的相关检索。用户只要定义好一个ANY词检索文件,比如“计算机、电子计算机、电脑、微机、586计算机等”,那么用户一旦用“计算机”进行检索,iBASE数据库就可以把数据库中所有包含“计算机、电子计算机、电脑等”信息的记录查询到,提高了查全率,同时iBASE 数据库支持的禁用词,可以过滤掉一些没有检索意义的英文虚词如“I、TO”等以提高查准率。
6.iBASE数据库在输出时,格式复杂且变化多,数据库管理系统提供方便简单的手段来满足用户的需求。iBASE数据库自有的格式化语言允许用户自定义各种输入输出报表格式,允许按照不同方式进行排序,生成用户需要的报表。
近年来网络体系结构经历了一次次重大变迁,客户机/服务器结构越来越流行了,Internet以惊人的速度在短短一年内迅速蔓延,面临新的格局,如何简易地实现“客户机/服务器”连接与“Web/Intranet”连接成为数据库管理人员关注的焦点。
目前,在Web上一个典型的数据库应用程序应包括三个部分:Web浏览器、HTTP服务器和Web数据库服务器。对于一般的关系型数据库,实现Web数据库的应用通常有两种方法:一种是Web服务器提供中间件连接Web服务器与数据库服务器;另一种是把应用程序下载到客户端直接访问数据库。难道就没有一个开发相对容易、功能强大且高效的Web数据库的开发方法吗?
有,答案是——iBASE。基于Web是一个广域网的海量数据库的思想,国信贝斯的iBase 提供一个网上资源管理系统iBASE WEB。利用非结构化数据库全部基于Internet的数据库结构模型,采用网络服务器(Web Server)和数据库服务器(iBase Server)紧密集成的方法,将目前传统数据库厂商由C/S结构扩展来的浏览器/Web服务器+应用服务器/数据库服务器的三层体系结构,集成为浏览器/iBASE WEB式的Internet计算结构,使数据库系统成为Internet的一个重要有机组成部分,实现在单一平台上融合所有数据库和应用服务器的功能。这不仅大大减少了用户对额外硬件、中间件和其它昂贵的集成业务需求,而且极大的缩短了用户开发和采用基于Internet应用的时间;也正是采用这种集成技术,与其他数据库厂商的Internet解决方案相比,iBASE Web具有集成性强、简单易用、检索效率高、易于管理维护、总拥有费用低(包括系统购置、二次开发、管理维护等费用)等竞争优势,给用户提供了一个强大的Internet解决方案平台。
近五年里,用户的选型观念发生了明显的改变,有更多的用户把数据库的重要性放在十分重要的地位,其主要原因是用户将把应用软件和应用需求放在首位,应用软件是否满足用户需求是整个项目是否成功的标志,而应用软件开发直接依赖于数据库开发工具。正是用户需求的这种变化给数据库厂商提供了新的发展机会。iBASE为各数据库系统集成商提供了强大的数据库开发平台,iBASE结合了企业级电子邮件、分布式文档数据库与快速应用开发等三位一体的强大技术、完全集成了Internet技术,提供用户完整的,以网络为中心的应用技术平台。完全可以预言,在不久的将来,完全基于Internet 应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一热点技术。
非结构化数据库理论认为:在信息社会,所有信息大体上可以分为两类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息根本无法用数字或者统一的结构表示,例如,文本、图象、声音乃至网页等,我们称之为非结构化数据。非结构化数据包括结构化数据,但又不止是结构化数据;结构化数据属于非结构化数据,是非结构化数据的特例。一般来说,在人们的认识之中,关系数据库处理的对象最主要的特征就是数据的结构化。
然而,随着网络技术和软件技术的飞速发展,特别是Internet和Intranet技术的发展,使得非结构化数据的应用日趋扩大。擅长于处理结构化数据的关系数据库随着随着非结构化数据应用领域的不断拓展,开始暴露出越来越多的局限。特别是关系数据库对数据类型的处理只局限于数字、字符等,对非结构化信息的处理只是停留在简单的二进制代码文件的存储,已经不适应用户从简单的存储上升为识别、检索和深入加工的要求;而基于Internet的应用尤其使关系数据库相形见绌。因而数据库技术也相应进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
非结构化数据库以北京国信贝斯(iBASE)软件有限公司的iBASE数据库为代表。它从数据模型入手,采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化或者说任意格式的字段,从而突破关系数据库非常严格的表结构,解决了关系数据库模型过于简单,不便表达复杂嵌套的问题;同时iBASE数据库将所有数据管理纳入资源管理范畴,将所有数据定义为可管理的资源,通过iBASE的资源管理器实现对各种复杂数据的管理,以数据库管理系统为代表的非结构化数据库是国信贝斯拥有自主版权的专门处理非结构化信息、全文信息、多媒体信息和其它海量信息的数据库管理系统。非结构化数据库区别于传统的其它数据库之处,在于它将所有数据定义为资源,而这一资源可以是网页、文本、与字处理文档类似或者就是整个关系数据库。通过对资源的管理,非结构化数据库实现数据库系统从数据管理到内容管理的转化。
具体说来,同关系数据库相比,非结构化数据库系统的特点主要反映在以下方面:
1.iBASE 数据库系统的数据库结构定义是相对灵活的,解决了变长字段和重复字段的定义问题,使一个字段可以存贮变长的信息,但是却能通过特有的索引技术实现对指定字段的检索。iBASE 数据库大部分数据项的内容长度变化较大,因此要求变长存储管理。iBASE 数据库的一些数据项具有多值性。
2.iBASE数据库在数据注录格式方面,有国际标准(ISO-2709,MARC,CCF)和国内标准(CCFC)格式。这些格式对于数据库标准化和数据交换与共享是十分重要的。这些标准要求数据项中可包含数据子项(子字段),文献数据库管理系统必需支持子字段的处理。
3.文献数据库在数据查询方面要求较高,iBASE数据库不仅能够对整个字段查询,要求子字段、关键词、自由词、标引词、位置词和全文任意词的单项及组配检索。
4.iBASE数据库处理的对象多为海量数据,不仅检索功能强而且检索速度快,在检索速度方面一般不受文献量(上千万条记录)的影响。
5.数据库的查全率和查准率是评价文献数据库系统的重要指标。所谓查准率指的命中文献和查询条件的匹配准确程度,查全率是指命中结果相对整个数据库的内容是否全面。iBASE数据库提供了ANY词检索方式,这也是一种特定的相关检索。用户只要定义好一个ANY词检索文件,比如“计算机、电子计算机、电脑、微机、586计算机等”,那么用户一旦用“计算机”进行检索,iBASE数据库就可以把数据库中所有包含“计算机、电子计算机、电脑等”信息的记录查询到,提高了查全率,同时iBASE 数据库支持的禁用词,可以过滤掉一些没有检索意义的英文虚词如“I、TO”等以提高查准率。
6.iBASE数据库在输出时,格式复杂且变化多,数据库管理系统提供方便简单的手段来满足用户的需求。iBASE数据库自有的格式化语言允许用户自定义各种输入输出报表格式,允许按照不同方式进行排序,生成用户需要的报表。
近年来网络体系结构经历了一次次重大变迁,客户机/服务器结构越来越流行了,Internet以惊人的速度在短短一年内迅速蔓延,面临新的格局,如何简易地实现“客户机/服务器”连接与“Web/Intranet”连接成为数据库管理人员关注的焦点。
目前,在Web上一个典型的数据库应用程序应包括三个部分:Web浏览器、HTTP服务器和Web数据库服务器。对于一般的关系型数据库,实现Web数据库的应用通常有两种方法:一种是Web服务器提供中间件连接Web服务器与数据库服务器;另一种是把应用程序下载到客户端直接访问数据库。难道就没有一个开发相对容易、功能强大且高效的Web数据库的开发方法吗?
有,答案是——iBASE。基于Web是一个广域网的海量数据库的思想,国信贝斯的iBase 提供一个网上资源管理系统iBASE WEB。利用非结构化数据库全部基于Internet的数据库结构模型,采用网络服务器(Web Server)和数据库服务器(iBase Server)紧密集成的方法,将目前传统数据库厂商由C/S结构扩展来的浏览器/Web服务器+应用服务器/数据库服务器的三层体系结构,集成为浏览器/iBASE WEB式的Internet计算结构,使数据库系统成为Internet的一个重要有机组成部分,实现在单一平台上融合所有数据库和应用服务器的功能。这不仅大大减少了用户对额外硬件、中间件和其它昂贵的集成业务需求,而且极大的缩短了用户开发和采用基于Internet应用的时间;也正是采用这种集成技术,与其他数据库厂商的Internet解决方案相比,iBASE Web具有集成性强、简单易用、检索效率高、易于管理维护、总拥有费用低(包括系统购置、二次开发、管理维护等费用)等竞争优势,给用户提供了一个强大的Internet解决方案平台。
近五年里,用户的选型观念发生了明显的改变,有更多的用户把数据库的重要性放在十分重要的地位,其主要原因是用户将把应用软件和应用需求放在首位,应用软件是否满足用户需求是整个项目是否成功的标志,而应用软件开发直接依赖于数据库开发工具。正是用户需求的这种变化给数据库厂商提供了新的发展机会。iBASE为各数据库系统集成商提供了强大的数据库开发平台,iBASE结合了企业级电子邮件、分布式文档数据库与快速应用开发等三位一体的强大技术、完全集成了Internet技术,提供用户完整的,以网络为中心的应用技术平台。完全可以预言,在不久的将来,完全基于Internet 应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一热点技术。