论文部分内容阅读
一、档案信息计算机检索的特点
一是信息存储量大、检索速度快、检索效果好。二是检索途径多元化。三是档案信息的检索对计算机系统的依赖性强。运用计算机检索档案信息的查全率、查准率与档案工作者、利用者熟练掌握计算机检索文档的知识及检索技能的掌握有着密切的关联,特别是在档案信息服务经济建设和服务民生工作中,要求档案工作者不仅要掌握计算机档案检索知识,而且要向广大的利用者普及档案检索知识,才能有效地提高档案信息的利用效益,极大地扩展档案工作的社会影响力,提高档案工作的社会地位。
二、档案计算机检索系统的建立
建立功能完善的档案计算机检索系统,应科学地进行检索流程和档案信息检索级别设计。
(一)计算机检索流程设计。档案计算机检索流程包括档案文献信息的输入和档案文献信息的输出两部分,具体流程如图所示。
1 档案文献信息的输入。计算机文献检索系统的基础是数据库的建立,包括文献的选择、标引、加工和输入等一系列的过程,数据库的数据数量和质量对于计算机检索系统的性能具有直接影响。为适应档案现代化管理需要,建立统一的档案检索和管理体系,更好地开发档案信息,实现档案信息共享,目前,我国各省(市)国家档案馆均制定了《综合档案馆电子目录数据库结构与交换格式》。该标准分别制定了适用于文书立卷改革前的档案目录的《案卷级目录数据库结构与著录格式》和适用于按照DA/T22-2000《归档文件整理规则》整理的档案目录的《文件级目录数据库结构与著录格式》。文档管理系统机读目录输入规范,采用1992月1日实施的《档案著录规则DA/T 18-1999》的著录项,文档管理软件在案卷级著录和文件级著录选取的主要著录项目字段有:题名、并列题名、文件编号、责任者、附件、稿本和文种、密级与保管期限项、文件形成时间项、载体类型、数量及单位、分类号、档案馆代号、档号、电子文档号、缩微号、主题词或关键词。
2 档案文献信息的输出。利用者根据对档案文献的信息需求,编制恰当的检索条件,形成检索表达式,并将其输入计算机,在数据库查找后将结果输出。
(二)档案信息检索级别设计。检索级别是衡量检索深度和检索精度的重要标准。档案信息计算机检索,检索级别越小、越低、内容越具体,说明检索的精度越高、检索的深度越深。
1 案卷级检索。案卷级检索是指检索出的档案只能是案卷级目录,而无法一次检索出其卷内的具体文件,其检索依据是用案卷目录来建立的案卷级目录数据库。档案工作者都知道拟写案卷题名是一件比较困难的事情,规定字数不能超过五十个汉字,且题名要尽可能涵盖卷内文件的内容,即案卷题名的内涵尽可能等于卷内文件的外延。由于档案工作者水平不一,拟写的案卷题名涵盖不了该案卷所有的文件内容。检索文书档案内容方面,档案馆(室)很少采用案卷级检索功能,而在科技档案和专门档案检索中经常使用。
2 文件级检索。利用计算机检索工具不仅可以按著录项目进行单项检索,还可以把若干项目结合起来检索,均可检索出具体的文件(即文件级检索),以满足利用者获取档案信息的需求。作为文件级检索,是档案馆(室)经常采用的档案文献检索手段,其具有一次输入、多次输出、多样化输出的功能。文件级档案文献的查准率和查全率,取决于操作者对档案著录项目的组合而设置检索条件,凡输入计算机的每一个检索著录条目为一个检索入口,如把文件的责任者、题名、时间3项目结合起来检索,可以获得满足这3个检索条件的档案文献。在检索工具中还可通过主题标引和分类标引的手段揭示出文件内容所涉及到的概念性主题或所属逻辑类别,这类检索有时被称为“内容级检索”。但因文件内容不能脱离开文件而单独存在,检索成果依然是一份份的文件,所以“内容级”严格说起来无法成立,只能归入“文件级”。
3 全文检索。全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。在功能上,全文检索系统需要具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。结构上,全文检索系统具有索引引擎、查询引擎、文本分析引擎和对外接口等。全文检索弥补了文件级检索存在的不足之处,因为有的文件标题拟写不准确,或综合性的文件很难用标题完全表达,造成了计算机误检或漏检现象时有发生。全文检索系统是自然语言处理技术与海量内容管理技术的完美结合,它对网页、文本、电子文档和图像等非结构化的信息提供强大的管理功能,能有效地解决以上问题。
4 多媒体档案文献检索。所谓多媒体档案,是集声、光、电多种媒体于一体的档案。这种档案可以更真实地记录人们的社会活动,实现高密度存储和远距离传输,得到最为理想的利用效果。多媒体档案文献检索有案卷级检索和文件级检索,案卷级检索可检字段有案卷题名、立档单位、主题词、起始年代、起始月份、起始日期。文件级档案目录的检索一二级分类与档案相同,可检字段有文件题名、责任者、主题词、文件年代、文件月份、文件日期、文件代字、文件年号、文件编号。
三、档案信息计算机检索策略
运用计算机进行档案信息检索,用户对档案信息的需求是精细的,其感兴趣的是某一档案的具体内容,即根据用户的查询表达式,如通过电子档案著录项(电子文档号、题名与责任者、密级与保管期限、时间项等)在信息源中检索出相关类型的电子档案。档案检索策略是人们进行档案检索的方案和计划,编制档案检索策略包括选择检索途径和检索词(档案著项),及确定检索词(档案著项)之间逻辑关系。检索策略的编制是根据用户检索档案常用的逻辑思维式而制定表达方式,在计算机档案信息检索模块最常用的有以下3种逻辑表达式。
一是通过计算机设置逻辑与关系(AND的表达式,限定档案内容之间的关系,两个检索词之间一般用符号“★”表示,用户输入计算机的检索词必须满足两个检索条件。例如,检索有关员工绩效考核方面的档案信息,在检索入口输入“员工★绩效考核”,用来表示两个内容之间的重合关系,对于专题与文件内容较为明确的情况下,使用逻辑与关系有利于提高查准率。 二是采用逻辑或关系(OR)表示两个检索词之间的任选关系,为档案信息利用人员提供模糊检索功能。检索档案信息一般在文件题名、文件编号和档号检索窗口使用“ ”连接多个查询关键字,满足档案信息利用者输入的关键字其中之一,即可查询到相关的档案资料。例如:“档案 专业技术职务”表示检索有关档案人员评聘专业技术职务方面的档案资料。档案馆(室)日常的查询档案资料工作中,在文件题名检索入口最经常使用的是逻辑或关系检索档案信息内容,这种关系在检索入口使用越多,那么计算机选择用户需求的档案资料范围就越大,一般情况下使用逻辑或关系有助于提高查全率。
三是采用表示否定关系的逻辑非关系(NOT),用排除法控制检索结果,有利于提高查准率。例如:“教师——副教授”表示检索有关教师非副教授的档案资料。
以上三种不同逻辑的计算机检索法,软件人员在设计档案检索程序时,已经嵌入到档案管理软件的检索系统。档案利用人员检索档案信息时,在检索入口灵活使用检索逻辑,有助于提高档案信息的查准率和查全率。
四、档案信息计算机检索技巧
我国各地国家公共档案馆和机关、企事业单位档案(馆)室使用的文书档案管理系统,都具有档案信息计算机检索功能。计算机档案信息检索模块最常用的逻辑与关系(AND)、逻辑或关系(OR)和逻辑非关系(NOT)3个表达式,为计算机档案检索系统的编程规范。提供给档案信息获取者使用的检索界面,基本上按照《档案著录规则DA/T 18-1999》的著录项设置检索入口。
在档案信息检索中,掌握一些检索技巧能够极大地提高档案利用者档案信息检索能力。
(一)题名表述准确。档案信息计算机检索最基本同时也是最有效的技巧,就是选择合适的检索词。档案检索系统会严格按照档案利用者提交的检索词去检索档案信息。为此,检索词表达准确是获得良好检索结果的必要前提。常见错误是对档案信息的表达不准确。例如,要查找《国有企业资产与产权变动档案处置暂行办法》,检索词可以是“国有企业资产与产权变动档案处置暂行办法”,如果把“暂行办法”检索词换成“管理规定”,检索结果不能满足需求。另一类典型的表达是不能掌握不同历史时期档案文件的题名用语。例如,
“知识青年上山下乡”,在题名检索入口输入“知识青年农村劳动”,就没有“知识青年上山下乡”的文件出现。还有一种类型是检索词中包含错别字。例如,要查找“档案专业任职资格”,用“档案专业任职资格”,就可以检索出有关档案专业任职资格的档案,但如果写错了字,变成“档案职业任职资格”,其检索准确率就达不到档案查询的指标要求。
(二)正确选择档案信息检索项目。档案软件检索界面,基本上包含了《档案著录规则DA/T 18-1999》的所有项目,但在档案馆(室)日常查询档案资料工作中,并不是所有的机读著录条目都要输入检索条件。我们把机读著录条目按照使用频率分为三级:一级为使用频率较多的著录条目,包含:题名、文件编号、责任者、档号、文件形成时间项。二级为使用频率一般的著录条目,包含:分类号、档案馆代号、电子文档号、缩微号、主题词或关键词、密级与保管期限。三级为使用频率较少的著录条目,包含:并列题名、附件、稿本和文种、项载体类型、数量及单位。
(三)检索词的主题关联与简练。为提高档案信息资料的查全率,在文件题名检索入口把查询档案的主题提炼成简单的,而且与希望找到的信息内容主题关联的检索词,档案利用者最好学会使用两个关键词检索,两个关键词中间用“ ”关联,并且合理地与使用频率较多的一级著录条目进行检索条件组合。例如,查询《城市建设档案归属与流向暂行办法》档发字(1997)20号,国家档案局1997年7月28日印发。检索条件组合如下:
题名:“城市 建设档案 归属”
责任者:国家档案局
时间:199701-199812
或题名:“城市建设 档案 流向”
文件编号:档发字(1997)
时间:19970101-19971231
输入检索主题的质量关系到文件的查准率。实践中得出经验,题名检索入口每个关联词组不要超多5个汉字,因为大多数的档案利用者输入汉字越多与计算机文件级数据库匹配运算吻合机率越低。在档案检索中,档案信息利用者要养成使用多个关键词检索的习惯,在档案信息检索时大多数情况下使用两个关键词检索已经足够了,关键词与关键词之间以“ ”隔开,关键词以2至4个汉字为宜。
档案信息检索正向全文文本、多媒体、多载体、跨平台等新型信息检索的方向发展,为提高档案信息的利用效果,档案信息利用者掌握档案信息检索知识与检索技巧能极大地提高档案信息的查全率和查准率,档案工作服务能力得到显著提高。
一是信息存储量大、检索速度快、检索效果好。二是检索途径多元化。三是档案信息的检索对计算机系统的依赖性强。运用计算机检索档案信息的查全率、查准率与档案工作者、利用者熟练掌握计算机检索文档的知识及检索技能的掌握有着密切的关联,特别是在档案信息服务经济建设和服务民生工作中,要求档案工作者不仅要掌握计算机档案检索知识,而且要向广大的利用者普及档案检索知识,才能有效地提高档案信息的利用效益,极大地扩展档案工作的社会影响力,提高档案工作的社会地位。
二、档案计算机检索系统的建立
建立功能完善的档案计算机检索系统,应科学地进行检索流程和档案信息检索级别设计。
(一)计算机检索流程设计。档案计算机检索流程包括档案文献信息的输入和档案文献信息的输出两部分,具体流程如图所示。
1 档案文献信息的输入。计算机文献检索系统的基础是数据库的建立,包括文献的选择、标引、加工和输入等一系列的过程,数据库的数据数量和质量对于计算机检索系统的性能具有直接影响。为适应档案现代化管理需要,建立统一的档案检索和管理体系,更好地开发档案信息,实现档案信息共享,目前,我国各省(市)国家档案馆均制定了《综合档案馆电子目录数据库结构与交换格式》。该标准分别制定了适用于文书立卷改革前的档案目录的《案卷级目录数据库结构与著录格式》和适用于按照DA/T22-2000《归档文件整理规则》整理的档案目录的《文件级目录数据库结构与著录格式》。文档管理系统机读目录输入规范,采用1992月1日实施的《档案著录规则DA/T 18-1999》的著录项,文档管理软件在案卷级著录和文件级著录选取的主要著录项目字段有:题名、并列题名、文件编号、责任者、附件、稿本和文种、密级与保管期限项、文件形成时间项、载体类型、数量及单位、分类号、档案馆代号、档号、电子文档号、缩微号、主题词或关键词。
2 档案文献信息的输出。利用者根据对档案文献的信息需求,编制恰当的检索条件,形成检索表达式,并将其输入计算机,在数据库查找后将结果输出。
(二)档案信息检索级别设计。检索级别是衡量检索深度和检索精度的重要标准。档案信息计算机检索,检索级别越小、越低、内容越具体,说明检索的精度越高、检索的深度越深。
1 案卷级检索。案卷级检索是指检索出的档案只能是案卷级目录,而无法一次检索出其卷内的具体文件,其检索依据是用案卷目录来建立的案卷级目录数据库。档案工作者都知道拟写案卷题名是一件比较困难的事情,规定字数不能超过五十个汉字,且题名要尽可能涵盖卷内文件的内容,即案卷题名的内涵尽可能等于卷内文件的外延。由于档案工作者水平不一,拟写的案卷题名涵盖不了该案卷所有的文件内容。检索文书档案内容方面,档案馆(室)很少采用案卷级检索功能,而在科技档案和专门档案检索中经常使用。
2 文件级检索。利用计算机检索工具不仅可以按著录项目进行单项检索,还可以把若干项目结合起来检索,均可检索出具体的文件(即文件级检索),以满足利用者获取档案信息的需求。作为文件级检索,是档案馆(室)经常采用的档案文献检索手段,其具有一次输入、多次输出、多样化输出的功能。文件级档案文献的查准率和查全率,取决于操作者对档案著录项目的组合而设置检索条件,凡输入计算机的每一个检索著录条目为一个检索入口,如把文件的责任者、题名、时间3项目结合起来检索,可以获得满足这3个检索条件的档案文献。在检索工具中还可通过主题标引和分类标引的手段揭示出文件内容所涉及到的概念性主题或所属逻辑类别,这类检索有时被称为“内容级检索”。但因文件内容不能脱离开文件而单独存在,检索成果依然是一份份的文件,所以“内容级”严格说起来无法成立,只能归入“文件级”。
3 全文检索。全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。在功能上,全文检索系统需要具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能。结构上,全文检索系统具有索引引擎、查询引擎、文本分析引擎和对外接口等。全文检索弥补了文件级检索存在的不足之处,因为有的文件标题拟写不准确,或综合性的文件很难用标题完全表达,造成了计算机误检或漏检现象时有发生。全文检索系统是自然语言处理技术与海量内容管理技术的完美结合,它对网页、文本、电子文档和图像等非结构化的信息提供强大的管理功能,能有效地解决以上问题。
4 多媒体档案文献检索。所谓多媒体档案,是集声、光、电多种媒体于一体的档案。这种档案可以更真实地记录人们的社会活动,实现高密度存储和远距离传输,得到最为理想的利用效果。多媒体档案文献检索有案卷级检索和文件级检索,案卷级检索可检字段有案卷题名、立档单位、主题词、起始年代、起始月份、起始日期。文件级档案目录的检索一二级分类与档案相同,可检字段有文件题名、责任者、主题词、文件年代、文件月份、文件日期、文件代字、文件年号、文件编号。
三、档案信息计算机检索策略
运用计算机进行档案信息检索,用户对档案信息的需求是精细的,其感兴趣的是某一档案的具体内容,即根据用户的查询表达式,如通过电子档案著录项(电子文档号、题名与责任者、密级与保管期限、时间项等)在信息源中检索出相关类型的电子档案。档案检索策略是人们进行档案检索的方案和计划,编制档案检索策略包括选择检索途径和检索词(档案著项),及确定检索词(档案著项)之间逻辑关系。检索策略的编制是根据用户检索档案常用的逻辑思维式而制定表达方式,在计算机档案信息检索模块最常用的有以下3种逻辑表达式。
一是通过计算机设置逻辑与关系(AND的表达式,限定档案内容之间的关系,两个检索词之间一般用符号“★”表示,用户输入计算机的检索词必须满足两个检索条件。例如,检索有关员工绩效考核方面的档案信息,在检索入口输入“员工★绩效考核”,用来表示两个内容之间的重合关系,对于专题与文件内容较为明确的情况下,使用逻辑与关系有利于提高查准率。 二是采用逻辑或关系(OR)表示两个检索词之间的任选关系,为档案信息利用人员提供模糊检索功能。检索档案信息一般在文件题名、文件编号和档号检索窗口使用“ ”连接多个查询关键字,满足档案信息利用者输入的关键字其中之一,即可查询到相关的档案资料。例如:“档案 专业技术职务”表示检索有关档案人员评聘专业技术职务方面的档案资料。档案馆(室)日常的查询档案资料工作中,在文件题名检索入口最经常使用的是逻辑或关系检索档案信息内容,这种关系在检索入口使用越多,那么计算机选择用户需求的档案资料范围就越大,一般情况下使用逻辑或关系有助于提高查全率。
三是采用表示否定关系的逻辑非关系(NOT),用排除法控制检索结果,有利于提高查准率。例如:“教师——副教授”表示检索有关教师非副教授的档案资料。
以上三种不同逻辑的计算机检索法,软件人员在设计档案检索程序时,已经嵌入到档案管理软件的检索系统。档案利用人员检索档案信息时,在检索入口灵活使用检索逻辑,有助于提高档案信息的查准率和查全率。
四、档案信息计算机检索技巧
我国各地国家公共档案馆和机关、企事业单位档案(馆)室使用的文书档案管理系统,都具有档案信息计算机检索功能。计算机档案信息检索模块最常用的逻辑与关系(AND)、逻辑或关系(OR)和逻辑非关系(NOT)3个表达式,为计算机档案检索系统的编程规范。提供给档案信息获取者使用的检索界面,基本上按照《档案著录规则DA/T 18-1999》的著录项设置检索入口。
在档案信息检索中,掌握一些检索技巧能够极大地提高档案利用者档案信息检索能力。
(一)题名表述准确。档案信息计算机检索最基本同时也是最有效的技巧,就是选择合适的检索词。档案检索系统会严格按照档案利用者提交的检索词去检索档案信息。为此,检索词表达准确是获得良好检索结果的必要前提。常见错误是对档案信息的表达不准确。例如,要查找《国有企业资产与产权变动档案处置暂行办法》,检索词可以是“国有企业资产与产权变动档案处置暂行办法”,如果把“暂行办法”检索词换成“管理规定”,检索结果不能满足需求。另一类典型的表达是不能掌握不同历史时期档案文件的题名用语。例如,
“知识青年上山下乡”,在题名检索入口输入“知识青年农村劳动”,就没有“知识青年上山下乡”的文件出现。还有一种类型是检索词中包含错别字。例如,要查找“档案专业任职资格”,用“档案专业任职资格”,就可以检索出有关档案专业任职资格的档案,但如果写错了字,变成“档案职业任职资格”,其检索准确率就达不到档案查询的指标要求。
(二)正确选择档案信息检索项目。档案软件检索界面,基本上包含了《档案著录规则DA/T 18-1999》的所有项目,但在档案馆(室)日常查询档案资料工作中,并不是所有的机读著录条目都要输入检索条件。我们把机读著录条目按照使用频率分为三级:一级为使用频率较多的著录条目,包含:题名、文件编号、责任者、档号、文件形成时间项。二级为使用频率一般的著录条目,包含:分类号、档案馆代号、电子文档号、缩微号、主题词或关键词、密级与保管期限。三级为使用频率较少的著录条目,包含:并列题名、附件、稿本和文种、项载体类型、数量及单位。
(三)检索词的主题关联与简练。为提高档案信息资料的查全率,在文件题名检索入口把查询档案的主题提炼成简单的,而且与希望找到的信息内容主题关联的检索词,档案利用者最好学会使用两个关键词检索,两个关键词中间用“ ”关联,并且合理地与使用频率较多的一级著录条目进行检索条件组合。例如,查询《城市建设档案归属与流向暂行办法》档发字(1997)20号,国家档案局1997年7月28日印发。检索条件组合如下:
题名:“城市 建设档案 归属”
责任者:国家档案局
时间:199701-199812
或题名:“城市建设 档案 流向”
文件编号:档发字(1997)
时间:19970101-19971231
输入检索主题的质量关系到文件的查准率。实践中得出经验,题名检索入口每个关联词组不要超多5个汉字,因为大多数的档案利用者输入汉字越多与计算机文件级数据库匹配运算吻合机率越低。在档案检索中,档案信息利用者要养成使用多个关键词检索的习惯,在档案信息检索时大多数情况下使用两个关键词检索已经足够了,关键词与关键词之间以“ ”隔开,关键词以2至4个汉字为宜。
档案信息检索正向全文文本、多媒体、多载体、跨平台等新型信息检索的方向发展,为提高档案信息的利用效果,档案信息利用者掌握档案信息检索知识与检索技巧能极大地提高档案信息的查全率和查准率,档案工作服务能力得到显著提高。