论文部分内容阅读
随着因特网的迅速发展和广泛应用,它逐渐成为目前最大的信息资源宝库和最主要的信息交流渠道,由于因特网信息资源的显著特点是量大而无序,故随之出现了“数据丰富,知识贫乏”现象。现有的搜索引擎大多是基于关键字的全文检索系统,较少考虑信息的语义问题,因而不能够满足用户的不同需求,广大用户也很难利用它们来获取因特网中许多有价值的知识。为此,本论文针对WWW科技信息资源自动标引展开理论和实践两方面的研究,其主要研究目的如下:为处理因特网信息资源提供技术支持,为普通用户检索因特网信息资源提供便利,为建设中国数字图书馆提供新的研究思路。 论文提出了基于《中国分类主题词表》的WWW科技信息资源自动标引系统(STAI)设计方案,该系统具有WWW网页的格式自动检测与转换、自动分词与自由词标引、自动分类标引和主题标引等功能。STAI系统是一个自动化程度较高的易用型软件,该试验系统可以同时实现中英文网页的自动标引,兼顾了如何结合自然语言与情报检索语言二者在信息检索方面各自的优越性。在STAI系统设计和实践过程中,本论文做出了一定的创新性尝试。例如,采用了结构化程序设计方法等先进的程序设计思想,重视ActiveX控件的设计和应用,其目的都是为了提高程序代码的可重用性和可移植性;论文中首次提出了“类目短语”这一新概念,设计了将自然语言与情报检索语言紧密结合的若干对应表,比如用于实现自动分类标引和自动主题标引的“类目短语-主题词对应表”、“主题词-分类号对应表”等。以上研究成果,为今后进一步研制具有自主知识产权的WWW科技信息资源自动标引软件产品奠定了良好的基础。 此外,笔者还对文献自动标引的理论和方法进行了系统化的梳理,文中引用的大量参考文献对于从事相关领域研究的人员来说具有较高的参考价值。