论文部分内容阅读
现代社会是一个知识社会,每天都会涌现大量的知识信息。目前的文献标引方式大多是采用分类法或主题法,这两种标引方法难以有效为用户提供针对问题的解决方案。文献信息资源可以根据文献的外形特征信息及内容特征信息进行关联检索,但检索结果输出的仍是文献,并不能全面准确提供知识信息。知识元标引可使知识被有效的检索、利用,实现知识创新和增值,为用户提供针对性的知识服务,能很好的解决以上问题。知识元是知识的最小单位,以知识元为单位的知识标引为用户提供的不再是文献,而是文献中的具体知识,在一定程度上满足了人类对知识组织、知识管理、知识服务的需求。本文在分析了已有信息资源存在的问题后,设计并实现了知识元标引系统,主要研究工作体现在以下几个方面:(1)介绍了知识元的相关理论。对目前的知识组织方式进行了综述,同时对知识元的概念、特点、分类、结构等进行了详细阐述,并利用RDF/XML数据模型描述知识元。(2)对知识元标引系统进行了详细设计,包括体系结构设计、功能模块设计、数据库设计等。同时,根据知识元标引流程将标引系统分为三个功能子模块:预处理模块、句子提取模块和知识元提取模块。(3)提出了一种基于向量空间模型和改进的TFIDF算法的关键词提取方法。在分析了传统的TFIDF权重算法之后,考虑到特征项出现的位置不同对文本的影响不同,在TFIDF算法基础上增加了位置权重系数,对文献空间中的每个词进行权重计算,并进行了实验,结果表明改进的算法提高了关键词提取的准确度。(4)实现了知识元标引系统。在研究了目前汉语分词算法和典型的分词系统的基础上,基于海量中文智能分词技术实现了知识元标引系统,并生成相关知识元的RDF/XML描述文档。该系统从文献中抽取关键词,再利用关键词确定所要标引的知识元所在句,抽取相关知识元。论文的特色之处在于使用知识的最小单位——知识元对文献进行标引,用户得到的将是有效的知识而不是大量的文献,提高了知识的利用率。