论文部分内容阅读
[摘 要]信息化时代也冲击着传统的档案业,随着档案信息量的逐年积累,纸质档案的数量已经非常庞大,档案利用的方式亟待改变。传统的手工信息检索通过制作带有著录信息的条目卡片的方式提供检索。机械信息检索使用打孔机、验孔机、分类机等机电设备记录二次文献,用电刷检索。这两种方式原始、复杂,过分依赖设备,耗时长,成本高,检索效率和质量都不理想,于是利用计算机实现档案信息检索成为最好的解决办法。人们开发了档案管理系统,建立起数字档案馆,实现了计算机信息检索。
[关键词]档案信息 检索技术 档案管理
中图分类号:G272 文献标识码:A 文章编号:1009-914X(2018)11-0320-01
1、档案信息检索技术的发展
信息化的发展带来新的技术、新的文化以及新的交际方式。信息技术在档案管理的应用中得到了前所未有的发展,但是从目前发展的现状来看,还有很多地方需要进行改善。目前,档案管理系统开发了档案信息检索功能,广大用户可以通过档案信息检索系统进行目标查询,用户一般在查询档案信息时采用的是关键字模糊查询,而相关查询结果则是事先经过录入做好顺利排列之后进行输出的,虽然具备检索的功能,但是其检索结果并没有像预期一样达到用户真正需要的检索意图,甚至没有对查询中一些关键因素进行深入的分析,比如,关于关键词出现的频率,关键词出现的位置以及关键词的重要程度等等,因此,很多时候检索结果都是无序状态,甚至和用户想要查询的结果没有存在基本的关联性,最终无法并没有真正满足到客户的实际需求。因此,针对目前的档案信息检索存在的一些普遍问题。如何针对档案信息化系统进行改进,如何做好档案信息检索,如何才能在庞大的档案信息中准确找到自己的想要的信息,这才是我们必须要关注并且解决的问题。随着信息技术的发展,数字化档案建设之后浏览的人数与日俱增。而且不同的人有自己不同的思维模式,就大部分人来说他们对档案的记忆都是非常模糊的、片段的,本身自己的查询意图就不明确,在查询时一开始都是以试探的方式进行。如何满足这些用户的实际需求,如何让用户能够准毫无遗留的找到档案信息,这就要档案信息管理系统必须具备一套非常强大并且人性化的检索功能,让广大客户能够根据检索具备的基础条件进行更好的查询,这样查询结果将会更加准确、更加效率。目前,能够满足不同的用户不同需求的检索功能,主要包括了全文检索、图片检索、目录检索等。
2、档案信息检索技术
2.1 信息检索的原理
所谓信息检索是一般是根据某种方式将各种信息进行重新组织,然后根据用户的查询需求将对应的信息反映给用户的一个过程。档案信息检索包括了:索引检索、查询处理、文档检索几个方面。第一,索引生成。设计档案信息检索系统时必然会涉及到索引生成,那么如何选择索引与如何选择索引方法以及关键词表分词方法都显得非常重要。索引生成会涉及到EM算法、N-Gram算法、HMM算法等,它们都是统计学原理当中的分词方法,但是这种计算方法使用的范围比较小,而且工作量也很大。第二,查询处理。档案信息在具体检索的过程中,用户在使用的过程汇提出查询条件,比如:关键词、自然语言、表达式等等,而且整个档案信息检索功能对于用户输入的查询条件不能肆意更改。例如,档案信息检索系统如果没有对用户给出的查询条件进行及时的处理,这样便会影响查询的准确率。因此,根据用户的查询条件一般要做好语义处理,这样才能准确领悟到用户想要表达的一切查询意图,通常使用的处理方法有关联矩阵、相关反馈、潜语义分析等等技术。第三,检索。检索系统直观理解就是对关键词进行查询的处理方式,给用户及时提供查询出来的结果。检索系统的工作程序比较简单,通常可以利用对应的模型来对查询结果的关联性进行排列,主要的方式有:概率模型、布尔模型以及向量模型。
2.2 相关性
2.2.1 面向系统的相关性
系统相关性是信息检索系统针对用户的查询从文档集中检出文档与查询之间的匹配关系。认为相关性主要受文档特征与操作的影响,这些内在特征和操作主要包括:分类表、主题词表、索引、词汇的语义以及语法描述、文献组织、检索提问的分析与检索策略等。
2.2.2 用户相关性
是用户发出的查询结果与信息需求之间的匹配关系。目前,档案信息检索过程涉及到的数据量也非常巨大的,此时用户的实际操作将会影响到整个信息检索过程。而且需要考虑到用户在实际查询过程中一个心理变化过程,因此,要将用户相关性与档案信息检索的相关性充分结合起来,经过对比分析之后,得知前者更加能够提高检索结果的准确率。
2.3 模糊检索
1956年,美国加州大学著名教授L.A.Zadeh首先提出了模糊集合的理论,应用于研究现实世界中一些模糊不清的问题,使之清晰化的过程,随后模糊集合的理论在自动控制和信息论等领域迅猛发展。模糊检索是模糊集合中关于信息处理的重要方法。模糊检索又称“包含检索”,是指检索字符串或文件中的部分作为检索關键词的一种检索方式[29]。模糊检索能够扩大检索范围,获得更大的检索结果集合。同时,模糊检索从用户的角度提高了系统的友好性,当检索内容较多时,用户只需记忆部分关键词即可完成信息检索,提高系统的可用性。几乎所有的关系数据库都提供了模糊检索功能,以SQLServer数据库为例,在进行模糊检索时,利用like关键字约束定义检索类型为模糊检索,并利用通配符对模糊部分进行定义和约束。
模糊检索是相对于精确检索的一种检索方式,与精确检索相比,模糊检索扩大了结果范围,提高了查全率和软件系统的易用性。根据模糊查询的实现原理,主要存在以下优点。
2.3.1 便利性
模糊检索为非专业领域用户提供了易于理解和操作的接口,用户无需掌握专业领域的相关内容和规则,就可通过关键词对信息进行检索,模糊检索为此提供了极大的便利性。
2.3.2 易用性
模糊检索采用自然语言作为检索语言,与受控语言相比,自然语言有不可比拟的优点,如符合用户的检索习惯,无需用户方面对关键进行概念转换;自然语言具有丰富的标引检索入口词,易于提高检全率;操作简单简易、灵活、适用人群覆盖面积广。
2.3.3 启发性
模糊查询的结果集大于等于精确查询的结果,在获得冗余结果的同时,用户也得到与查询内容相关的结果,若获得巨大的查询结果集,用户可以根据目前结果集合的启发信息重新选定查询关键字,逐渐精确查询结果。
2.3.4 扩展性
模糊检索扩展了精确检索的功能。精确检索对于检索词的研究较高,通过输入具有精确内容和格式的检索词,有目的性的获得相关结果。相反,若输入的检索词较松散、不符合或部分符合规则,则会出现信息漏检的情况,影响结果获取。模糊检索则可以弥补由于精确输入的检索词而造成遗漏的不足的问题。
结束语
综上所述,档案信息检索技术要从检索的基本原理入手,对检索的过程相关性分析,尤其是要了解检索相关性与用户相关性。另外,模糊检索是当前档案信息检索最为有效的检索功能,虽然无可避免模糊检索过程中会带来目标结果与冗余结果,但只要从这方面深入研究,结合档案信息的特殊性,从而对结果统计进行合理的排序,提高档案信息的利用率。
参考文献
[1] 赵进龙,霍明明.RFID技术在档案信息检索中的应用研究[J].电子世界,2016,(14):53.
[2] 孙梅霞.新形势下档案信息公共服务方式研究[J].兰台世界,2015,(23):105-106.
[3] 方婷.信息技术在档案中的应用[J].东方企业文化,2015,(02):66+68.
[关键词]档案信息 检索技术 档案管理
中图分类号:G272 文献标识码:A 文章编号:1009-914X(2018)11-0320-01
1、档案信息检索技术的发展
信息化的发展带来新的技术、新的文化以及新的交际方式。信息技术在档案管理的应用中得到了前所未有的发展,但是从目前发展的现状来看,还有很多地方需要进行改善。目前,档案管理系统开发了档案信息检索功能,广大用户可以通过档案信息检索系统进行目标查询,用户一般在查询档案信息时采用的是关键字模糊查询,而相关查询结果则是事先经过录入做好顺利排列之后进行输出的,虽然具备检索的功能,但是其检索结果并没有像预期一样达到用户真正需要的检索意图,甚至没有对查询中一些关键因素进行深入的分析,比如,关于关键词出现的频率,关键词出现的位置以及关键词的重要程度等等,因此,很多时候检索结果都是无序状态,甚至和用户想要查询的结果没有存在基本的关联性,最终无法并没有真正满足到客户的实际需求。因此,针对目前的档案信息检索存在的一些普遍问题。如何针对档案信息化系统进行改进,如何做好档案信息检索,如何才能在庞大的档案信息中准确找到自己的想要的信息,这才是我们必须要关注并且解决的问题。随着信息技术的发展,数字化档案建设之后浏览的人数与日俱增。而且不同的人有自己不同的思维模式,就大部分人来说他们对档案的记忆都是非常模糊的、片段的,本身自己的查询意图就不明确,在查询时一开始都是以试探的方式进行。如何满足这些用户的实际需求,如何让用户能够准毫无遗留的找到档案信息,这就要档案信息管理系统必须具备一套非常强大并且人性化的检索功能,让广大客户能够根据检索具备的基础条件进行更好的查询,这样查询结果将会更加准确、更加效率。目前,能够满足不同的用户不同需求的检索功能,主要包括了全文检索、图片检索、目录检索等。
2、档案信息检索技术
2.1 信息检索的原理
所谓信息检索是一般是根据某种方式将各种信息进行重新组织,然后根据用户的查询需求将对应的信息反映给用户的一个过程。档案信息检索包括了:索引检索、查询处理、文档检索几个方面。第一,索引生成。设计档案信息检索系统时必然会涉及到索引生成,那么如何选择索引与如何选择索引方法以及关键词表分词方法都显得非常重要。索引生成会涉及到EM算法、N-Gram算法、HMM算法等,它们都是统计学原理当中的分词方法,但是这种计算方法使用的范围比较小,而且工作量也很大。第二,查询处理。档案信息在具体检索的过程中,用户在使用的过程汇提出查询条件,比如:关键词、自然语言、表达式等等,而且整个档案信息检索功能对于用户输入的查询条件不能肆意更改。例如,档案信息检索系统如果没有对用户给出的查询条件进行及时的处理,这样便会影响查询的准确率。因此,根据用户的查询条件一般要做好语义处理,这样才能准确领悟到用户想要表达的一切查询意图,通常使用的处理方法有关联矩阵、相关反馈、潜语义分析等等技术。第三,检索。检索系统直观理解就是对关键词进行查询的处理方式,给用户及时提供查询出来的结果。检索系统的工作程序比较简单,通常可以利用对应的模型来对查询结果的关联性进行排列,主要的方式有:概率模型、布尔模型以及向量模型。
2.2 相关性
2.2.1 面向系统的相关性
系统相关性是信息检索系统针对用户的查询从文档集中检出文档与查询之间的匹配关系。认为相关性主要受文档特征与操作的影响,这些内在特征和操作主要包括:分类表、主题词表、索引、词汇的语义以及语法描述、文献组织、检索提问的分析与检索策略等。
2.2.2 用户相关性
是用户发出的查询结果与信息需求之间的匹配关系。目前,档案信息检索过程涉及到的数据量也非常巨大的,此时用户的实际操作将会影响到整个信息检索过程。而且需要考虑到用户在实际查询过程中一个心理变化过程,因此,要将用户相关性与档案信息检索的相关性充分结合起来,经过对比分析之后,得知前者更加能够提高检索结果的准确率。
2.3 模糊检索
1956年,美国加州大学著名教授L.A.Zadeh首先提出了模糊集合的理论,应用于研究现实世界中一些模糊不清的问题,使之清晰化的过程,随后模糊集合的理论在自动控制和信息论等领域迅猛发展。模糊检索是模糊集合中关于信息处理的重要方法。模糊检索又称“包含检索”,是指检索字符串或文件中的部分作为检索關键词的一种检索方式[29]。模糊检索能够扩大检索范围,获得更大的检索结果集合。同时,模糊检索从用户的角度提高了系统的友好性,当检索内容较多时,用户只需记忆部分关键词即可完成信息检索,提高系统的可用性。几乎所有的关系数据库都提供了模糊检索功能,以SQLServer数据库为例,在进行模糊检索时,利用like关键字约束定义检索类型为模糊检索,并利用通配符对模糊部分进行定义和约束。
模糊检索是相对于精确检索的一种检索方式,与精确检索相比,模糊检索扩大了结果范围,提高了查全率和软件系统的易用性。根据模糊查询的实现原理,主要存在以下优点。
2.3.1 便利性
模糊检索为非专业领域用户提供了易于理解和操作的接口,用户无需掌握专业领域的相关内容和规则,就可通过关键词对信息进行检索,模糊检索为此提供了极大的便利性。
2.3.2 易用性
模糊检索采用自然语言作为检索语言,与受控语言相比,自然语言有不可比拟的优点,如符合用户的检索习惯,无需用户方面对关键进行概念转换;自然语言具有丰富的标引检索入口词,易于提高检全率;操作简单简易、灵活、适用人群覆盖面积广。
2.3.3 启发性
模糊查询的结果集大于等于精确查询的结果,在获得冗余结果的同时,用户也得到与查询内容相关的结果,若获得巨大的查询结果集,用户可以根据目前结果集合的启发信息重新选定查询关键字,逐渐精确查询结果。
2.3.4 扩展性
模糊检索扩展了精确检索的功能。精确检索对于检索词的研究较高,通过输入具有精确内容和格式的检索词,有目的性的获得相关结果。相反,若输入的检索词较松散、不符合或部分符合规则,则会出现信息漏检的情况,影响结果获取。模糊检索则可以弥补由于精确输入的检索词而造成遗漏的不足的问题。
结束语
综上所述,档案信息检索技术要从检索的基本原理入手,对检索的过程相关性分析,尤其是要了解检索相关性与用户相关性。另外,模糊检索是当前档案信息检索最为有效的检索功能,虽然无可避免模糊检索过程中会带来目标结果与冗余结果,但只要从这方面深入研究,结合档案信息的特殊性,从而对结果统计进行合理的排序,提高档案信息的利用率。
参考文献
[1] 赵进龙,霍明明.RFID技术在档案信息检索中的应用研究[J].电子世界,2016,(14):53.
[2] 孙梅霞.新形势下档案信息公共服务方式研究[J].兰台世界,2015,(23):105-106.
[3] 方婷.信息技术在档案中的应用[J].东方企业文化,2015,(02):66+68.