基于情报检索语言互操作技术的集成词库构建研究

被引量 : 0次 | 上传用户:lyl478
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于目前存在多种标题表、叙词表、分类表和网络分类法,同一主题概念在不同网站和系统之中采用不同的主题词或分类号表达,网络信息检索变得十分困难。用户最理想的方式是用一个提问式可以获取多个数据库中的检索结果。要实现这一方法,最主要的就是实现各种情报检索语言之间的互操作。近年来,国内外学者一直在探讨检索语言的互操作问题,提出了多种解决方法,主要包括:自动匹配转换;中介词典;集成词表;映射;翻译等,并在此基础上完成了很多互操作的项目,为用户的信息检索带来了很大的方便。 本文拟通过对检索语言互操作技术的研究,借鉴国内外实现不同词表之间互操作的经验和方法,建立一个以《中国分类主题词表》为核心的兼容体系,即建立一个可以不断扩充的集成词库。这个集成词库包括:《中图法》与国内外分类法的互操作,《汉表》与专业叙词表的互操作以及受控语言与自然语言之间的互操作。拟以教育类为试验对象,选用多部中外叙词表、分类表构建词库。数据来源包括《中国分类主题词表》、《中国科学院图书馆图书分类法》(简称《科图法》)、《杜威十进分类法》(DDC)等分类表的教育大类;《教育主题词表》、《社会科学检索词表》等主题词表及下载、抽取的关键词和关键词串。 本文主要研究内容包括:不同词表到《中分表》的互操作,包括各分类法与《中图法》、各主题词表与《汉表》以及受控语言与自然语言的互操作三部分。对不同分类法的互操作拟采用同现映射和类目相似度计算等方法,并针对各种算法的不足提出了新的修改意见;对不同主题词表之间的互操作,拟采用基于结构的自动匹配、基于同义词表的映射等方法;另外,还研究了自然语言到受控语言的转换,为用户提供自然语言入口,方便用户检索、查找。通过上述映射完成词库的构建,本文采用兼容矩阵的结构形式来存储词库,分为两种形式:字顺兼容矩阵和分类兼容矩阵。为了便于浏览和使用词库数据,采用单机模式、XML文档格式及本体对词库兼容数据进行可视化显示,进而为用户提供各种服务。 利用Visual Basic语言、Access2000、XMLSpy等工具开发设计了教育词库的构建和应用系统。
其他文献
<正>目前,中学(含初、高中)物理电磁、静电等知识的实验教学都把电荷之间作用力的性质作为教学的重点。初中教学以感性入门知识为主,配以简单的实验示意图画面,然后通过文字
政府对公立医院和私立医院管理的个性和共性包括了三个层面的内容:学理层面、政策层面和法律层面。笔者在此主要在政策层面和法律层面讨论现在我国政府对公立医院和私立医院
我国发展绿色食品,取得了不凡的成绩。本文介绍我国绿色食品的发展状况,揭示其存在的问题,并提出开发绿色食品的策略。
<正>一、前言交易是一切经济活动的核心。电子商务交易是电子商务活动的核心,也是现代企业管理的核心。近年来,全球电子商务发展十分迅速,对经济活动的影响越来越大,电子商务
产品定位是企业开展市场营销工作的重要前提,要实现成功的产品定位,就必需把握好全面挖掘产品本身的特异点、深入了解竞争对手产品明确的定位、充分研究消费者对产品的价值追
随着现代社会的迅猛发展,汽车已经成为人类日常生活的一个重要工具,智能交通系统(Intelligent Transportation Systems,简称ITS)倍受瞩目。汽车牌照自动识别系统是现代智能交通
高等教育的变革与发展在某种程度上要受制于社会对高等教育的认识与评价。“知识经济”是对社会经济发展中出现的新现象的概括。从经济学意义上严格的说,“知识经济”理论还
电力系统是分布区域极广,分散性较大的复杂系统。除了表现出高维数、强非线性和多时速特征之外,最突出的特点就是发电过程的动态连续性,输配电系统的代数逻辑约束,以及包含或受离
近年来我国为适应培养目标的调整和人才培养方式的转变,应对新技术革命的挑战,进行了基础教育课程改革。使用新教材是新一轮课程改革的开始,是实施素质教育和培养学生创新精