论文部分内容阅读
传统的古籍普查方式耗费大量的人力物力,主要采取中国机读目录格式CNMARC(China Machine-Readable Catalogue)、古籍普查表、国家珍贵古籍名录申报书和Access数据库等传统载体进行记录。由于各地图书馆的条件差异和数据标准不一,即便是同样内容的数据,存储格式也不尽相同。加之这些传统载体本身的粗粒度,不同格式文件的交流困难,造成古籍数据的传播、查看、统计和检索十分不便。本文主要研究了汉文古籍标准化元数据转换问题,进行问题分析,设计和实现了标准化元数据转换的软件工具,并对软件工具进行详细测试,并对汉文古籍数字化工作的发展前景进行展望。本文通过古籍数字化服务平台,应用Web技术,实现了在线汉文古籍标准化元数据转换。通过古籍元数据建模,采用面向对象的设计思想,利用关系数据库进行存储数据,把古籍数据设计成为了细粒度的元数据。通过对CNMARC数据进行格式解析,将国家图书馆的38万条CNMARC格式数据转换为古籍数字化元数据;通过使用POI技术对Excel、Word等文件进行解析,将2500条古籍普查表数据和100条国家珍贵古籍名录申报书数据也转换为古籍数字化元数据;通过JDBC(Java Data Base Connectivity)连接数据库,将1800条Access数据也转换为古籍数字化元数据。此外,在古籍元数据模型的基础上,使用Lucene对30万条古籍数据建立索引,用于数据检索,平均检索时间在1秒以内;通过计算机统计与编排,实现了古籍信息自动编目及PDF输出。通过本文的一系列研究工作,我们将汉文古籍数据转换为了统一格式的细粒度元数据,展现形式更加易于多样化,统计十分便利;Web技术的应用,减少了古籍普查所需的大量资源成本,古籍传播和查看十分方便;采用了成熟的索引技术,古籍检索速度快捷,满足了实际应用需求。