论文部分内容阅读
目前,大多数图书馆进行采访查重主要是利用图书馆自身的自动化管理系统、馆配商提供的图书查重平台、购买具有查重功能的采集器以及自己开发的查重软件几种方式进行查重,这几种方式对数据的个性化要求,处理的繁简层次、所耗费的时间以及成本费用都不尽相同。几种方式各有长处,也各有弊端。本人也先后尝试过各种查重方式,最终的结果都不那么令人满意。经过长时间的体会和摸索,发现还是office办公软件靠得住些。以下就如何利用office进行查重,与同行切磋。
1 利用Excel进行查看
由于一张Excel表格只能容纳6万多条记录,采用Excel查重主要是针对比较小的数据,在这里我把它称为局部查重,特别适合采访数据间的相互查重(馆藏小的也适合),对图书验收特别有用,可以有效地杜绝塞书现象。我们可以把来自不同馆配商的采访预订数据做成一个文件,分别放在不同的工作表中,比如将从人天、儒林和三新的预订数据做成一个名叫图书预订数据.xls文件,该文件中就包含人天、儒林和三新三个工作表,也可以把不同馆配商的预订数据分别做成不同的文件,如人天.xls、懦林.xls和三新.xls三个文件,本人习惯做成一个文件。当每新订购一批图书,就将其采访数据加入相应的工作表中或文件中,并作一备注,标明是第几批,以供图书到馆验收查重用。
1.1 同一表中数据的处理
包括对书号及重复数据的处理,进行这种处理有助于表与表中查重的效率和准确性的提高。书号的处理主要是针对10位同13位ISBN号间进行转换,建议将10位和13位的ISBN号各入一列,这样就可以用10位查,也可以用13位查。由于同一表中可能会出现几条相同的记录,会造成统计的误差,这就需要对这一重复记录进行剔除,用手动的方法不仅费时而且费神,用表中高级筛选的话,效率就大大提高了。具体操作为选中工具栏中数据下拉菜单一筛选一高级筛选,选中列表区域和条件区域,在复选选择不重复记录,单击确定,表中就会隐藏重复的记录,显示的则是不重复的记录,我们也可以将其记录复制到其它表中。建议以上的操作最好是以ISBN号为条件,书名因同名的太多而不宜用,同一书号的丛书或套书则要单独进行处理。
1.2 不同表或不同文件间数据的查重
采购的图书入馆后,先不急着一包一单验收,因为一包一单的图书不一定是本馆订购的书。用订购数据同馆配商的发货数据比对,进行查重,可以将馆配商的塞书剔除,从而有效地杜绝塞书现象。数据的比对实际上是引用Excel自带的统计函数COUNTIF进行统计,最终达到查重的目的。假若本馆现在要对人天公司的发货图书进行验收,只要打开人天的订购数据和发货数据,在ISBN的格式一致时用ISBN号查重:在人天发货数据插入一列,在要插入的列中调用统计函数COUNTIF,这个函数主要用于计算区域中满足给定条件的单元格的个数,语法为COUNTIF(range,criteria),Range为需要计算其中满足条件的单元格数目的单元格区域Criteria为确定哪些单元格将被计算在内的条件,其形式可以为数字、表达式、单元格引用或文本。本例中的Range为人天订购数据中的ISBN列,Criteria为人天发货数据中的ISBN列。通过计算后,数字为0的是未订购的数据,即人天塞书,非零的就是本馆的订购图书。记住插入列前的一列数据不能为空,计算完毕后最好将计算好的值替换成文本,这样会提高处理数据的效率。为了防止馆配商将所到图书在下次重发,最好将已验收的订购图书作一备注,供下次再查重用。这样,就可以从根本上杜绝馆配商塞书情况的发生。在掌握这个函数后,我们可以很方便地进行表与表的比对,不过数据太大会影响计算速度,建议太大的数据比对不用Excel,改用Access。
2 利用Access查重
Access同Excel相比,具有更强大的功能,支持广泛的数据格式,可以处理大型的数据,在查重和去重方面有不可比拟的优越性,其操作方法如下。
在去重和查重之前,将要处理的数据导入Access表中,包括采访数据,馆藏数据以及其它相关的数据,其数据各字段的格式要保持一致。导入数据后,接着我们就要进行数据的处理。
2.1 同一文件中的数据去重
我们先在查询中建立一个去重文件,在设计视图中写入去重命令(sELECT DISTINCT字段名INTO表FROM需要去重的数据文件),其中,字段名指导人数据的各字段,如书号,书名等,“表”是经过处理后的没有重复记录的表,点击执行后,不重的数据就进入“表”中,打开“表”,全是不重的数据记录。
2.2 不同文件的数据去重
若要将采访数据A中同馆藏数据B中相重复的记录去掉,可以用DELETE*FROM A WHERE字段名iIl(select字段名from B);命令,其字段名必须相对应,即为同一条件。执行命令后,重复的数据就在A中删除没有了。
2.3 不同文件的数据的查重
如果说我们只要知道采访数据A中的哪些数据同馆藏数据B中的数据重了,而不动采访数据A,也好办,用命令SELECT A* INTO c FROM AWHERE字段名in(select字段名from B);命令执行后,重复的数据记录就在表c了,只要打开表c就可以查看重复的数据记录,而采访数据A没有任何变化。
用Access查重去重很容易实现,只需用简短的命令执行操作,不过,查重前务必要确保导人数据的准确性,否则,查重去重的准确性就没有保障。
关于用office查重去重,更深层次的东西有待大家进一步挖掘,希望本文起到抛砖引玉之效。笔者以为,为了科学建设馆藏资源及优化馆藏资源,图书馆采购人员必须具备一定的数据处理能力,通过在整个业务链的前端把好图书的质量关,确保提高全馆的服务水平。
1 利用Excel进行查看
由于一张Excel表格只能容纳6万多条记录,采用Excel查重主要是针对比较小的数据,在这里我把它称为局部查重,特别适合采访数据间的相互查重(馆藏小的也适合),对图书验收特别有用,可以有效地杜绝塞书现象。我们可以把来自不同馆配商的采访预订数据做成一个文件,分别放在不同的工作表中,比如将从人天、儒林和三新的预订数据做成一个名叫图书预订数据.xls文件,该文件中就包含人天、儒林和三新三个工作表,也可以把不同馆配商的预订数据分别做成不同的文件,如人天.xls、懦林.xls和三新.xls三个文件,本人习惯做成一个文件。当每新订购一批图书,就将其采访数据加入相应的工作表中或文件中,并作一备注,标明是第几批,以供图书到馆验收查重用。
1.1 同一表中数据的处理
包括对书号及重复数据的处理,进行这种处理有助于表与表中查重的效率和准确性的提高。书号的处理主要是针对10位同13位ISBN号间进行转换,建议将10位和13位的ISBN号各入一列,这样就可以用10位查,也可以用13位查。由于同一表中可能会出现几条相同的记录,会造成统计的误差,这就需要对这一重复记录进行剔除,用手动的方法不仅费时而且费神,用表中高级筛选的话,效率就大大提高了。具体操作为选中工具栏中数据下拉菜单一筛选一高级筛选,选中列表区域和条件区域,在复选选择不重复记录,单击确定,表中就会隐藏重复的记录,显示的则是不重复的记录,我们也可以将其记录复制到其它表中。建议以上的操作最好是以ISBN号为条件,书名因同名的太多而不宜用,同一书号的丛书或套书则要单独进行处理。
1.2 不同表或不同文件间数据的查重
采购的图书入馆后,先不急着一包一单验收,因为一包一单的图书不一定是本馆订购的书。用订购数据同馆配商的发货数据比对,进行查重,可以将馆配商的塞书剔除,从而有效地杜绝塞书现象。数据的比对实际上是引用Excel自带的统计函数COUNTIF进行统计,最终达到查重的目的。假若本馆现在要对人天公司的发货图书进行验收,只要打开人天的订购数据和发货数据,在ISBN的格式一致时用ISBN号查重:在人天发货数据插入一列,在要插入的列中调用统计函数COUNTIF,这个函数主要用于计算区域中满足给定条件的单元格的个数,语法为COUNTIF(range,criteria),Range为需要计算其中满足条件的单元格数目的单元格区域Criteria为确定哪些单元格将被计算在内的条件,其形式可以为数字、表达式、单元格引用或文本。本例中的Range为人天订购数据中的ISBN列,Criteria为人天发货数据中的ISBN列。通过计算后,数字为0的是未订购的数据,即人天塞书,非零的就是本馆的订购图书。记住插入列前的一列数据不能为空,计算完毕后最好将计算好的值替换成文本,这样会提高处理数据的效率。为了防止馆配商将所到图书在下次重发,最好将已验收的订购图书作一备注,供下次再查重用。这样,就可以从根本上杜绝馆配商塞书情况的发生。在掌握这个函数后,我们可以很方便地进行表与表的比对,不过数据太大会影响计算速度,建议太大的数据比对不用Excel,改用Access。
2 利用Access查重
Access同Excel相比,具有更强大的功能,支持广泛的数据格式,可以处理大型的数据,在查重和去重方面有不可比拟的优越性,其操作方法如下。
在去重和查重之前,将要处理的数据导入Access表中,包括采访数据,馆藏数据以及其它相关的数据,其数据各字段的格式要保持一致。导入数据后,接着我们就要进行数据的处理。
2.1 同一文件中的数据去重
我们先在查询中建立一个去重文件,在设计视图中写入去重命令(sELECT DISTINCT字段名INTO表FROM需要去重的数据文件),其中,字段名指导人数据的各字段,如书号,书名等,“表”是经过处理后的没有重复记录的表,点击执行后,不重的数据就进入“表”中,打开“表”,全是不重的数据记录。
2.2 不同文件的数据去重
若要将采访数据A中同馆藏数据B中相重复的记录去掉,可以用DELETE*FROM A WHERE字段名iIl(select字段名from B);命令,其字段名必须相对应,即为同一条件。执行命令后,重复的数据就在A中删除没有了。
2.3 不同文件的数据的查重
如果说我们只要知道采访数据A中的哪些数据同馆藏数据B中的数据重了,而不动采访数据A,也好办,用命令SELECT A* INTO c FROM AWHERE字段名in(select字段名from B);命令执行后,重复的数据记录就在表c了,只要打开表c就可以查看重复的数据记录,而采访数据A没有任何变化。
用Access查重去重很容易实现,只需用简短的命令执行操作,不过,查重前务必要确保导人数据的准确性,否则,查重去重的准确性就没有保障。
关于用office查重去重,更深层次的东西有待大家进一步挖掘,希望本文起到抛砖引玉之效。笔者以为,为了科学建设馆藏资源及优化馆藏资源,图书馆采购人员必须具备一定的数据处理能力,通过在整个业务链的前端把好图书的质量关,确保提高全馆的服务水平。