论文部分内容阅读
MARC(Machine Readable Catalogue机读目录)作为一种元数据格式,在信息描述、存储、交换、标准化和检准率方面具有不可比拟的优势。经过30多年的发展和在国内外图书馆界的广泛应用,目前仍有继续存在和发展的必要。但其专业性强、著录速度慢和结构复杂等局限性,使MARC满足不了当前网络海量信息资源的整序需求。档案MARC是实现该领域网络资源管理所必须解决的关键问题之一,我国至今还没有档案MARC的正式标准。国内外对网上MARC集中信息的描述及其实现技术尚没有深入研究,如何真正发挥集成、共享目录信息的文化与知识属性已成为当前的迫切需要。 以主题标引为基础的主题检索是当今图书馆、情报和档案部门现代化发展的必然趋势,研究、使用主题知识并实现自适应分类和基于语义知识转换的概念检索,是提高目前网上信息检索软件或搜索引擎质量的关键内容。主题自动标引的分词技术很难从根本上解决,所以在很长时间内一直受到人们的关注。目前,国内外对主题的研究,基本还停留在主题词层面上的处理,基于主题概念的自动标引和自动检索,已经成为当前中文信息开发与利用的主要瓶颈之一。 本文主要的工作是围绕五个方面展开的:建立网络环境下基于XML的XMARC信息描述理论体系,比较设计领域的XMARC元数据,构建以“关键词+主题词+范畴号”标识的知识关系K-S-C(Keyword-Subject-Category),建立XMARC主题知识的标引方摘要法及其算法,提出XMARC主题知识的分类与词句概念检索方法。具体成果包括:1.提出了XMARC的信息描述理论,系统地研究了信息的集中描述机制,设计并比较了基于XMARC领域内容和基于XMARC框架的两种DTD(Documentlype DeseriPtion文档类型描述)方案,定义了集中XNIARc的核心元素集及其XMLSehema的实现模式。2.提出并构建了K一S一C主题概念的语义关系,进而运用于XMARC文本的自动标引,通过预处理特义禁用词以减少分词歧义性,采用短词推进抽词方法以缩短标引时间,改进了传统的MM(Maximum Matching最大匹配)自动标引算法。3.提出了XMARC主题分类与主题词族的,体化概念检索方法,研究了抽取主题范畴模式以实现主题分类检索,通过语义知诊沐!词索分析转换实现了主题概念检索,从而提高了领域主题检索的质量。论文工作的意义在于通过对XMARC的理论研究,将我国图书、档案学科领域元数据的研究引向深入,探索国内外MARC元数据集中信息描述的机制,这些研究取得了极有价值的实践成果;通过自动发掘XMARC主题信息,为中文信息的主题标引、主题分类和主题检索自动化探索出新的解决方案,从而增强我国网络信息检索工具的实用性和提高信息检索的质量。