论文部分内容阅读
随着计算机技术的普及和Internet的迅猛发展,数字化的文档信息总量呈指数级的速度增长。面对网络上分散杂乱且具有一定利用价值的海量文档信息资源,如何有效利用它们,发挥它们的最大利用价值成为我们目前面临的难题。为解决这一难题,我们亟需一种快速有效的文档自动分类方法对它们进行分类整理,以便用户能够更快捷地获取利用它们。然而传统基于词向量空间的文档自动分类方法,虽然方法简单、易于学习,在对小规模文档进行分类时具有较高分类速度,但是其忽略词间重要语义关系,不能解决同义词、多义词、词间上下位关系等问题,导致向量空间维度高,分类性能低,在对海量文档分类时分类速度较慢,增加用户从海量信息中检索利用有用信息的难度。对此,国内外学者提出一系列语义驱动的文档自动分类方法,其虽然能够在一定程度上解决传统文档自动分类方法中存在的问题,但因其刚刚兴起,相关技术与方法还不太成熟,目前还基本上停留在理论、模型、框架研究阶段,且提出的方法语义推理能力要求高,计算复杂度高,无法快速有效对网络上海量文档进行语义分类。 针对上述问题,本文以本体集成和文档语义分类为研究对象,以语义分类过程中需要用到的两个本体库:WordNet和SUMO为例。首先通过广泛阅读国内外相关文献,梳理出本体集成和文档语义分类方面的基础理论。然后详细分析和探讨WordNet和SUMO本体库及两者之间的映射机制,基于此,设计和实现基于WordNet和SUMO本体集成的文档语义分类模型。该模型首先利用WordNet同义词集与SUMO本体概念之间的映射关系,编写正则表达式,对SUMO和WordNet本体库进行集成,形成涵盖WordNet同义词集与SUMO本体概念一一映射关系的集成本体库;然后在此基础上,设计和实现了一个映射算法,快速有效地将传统高维词向量空间映射成低维的概念或语义向量空间,实现文档的语义分类。不仅可以有效解决传统文档自动分类方法和目前语义分类方法中存在的问题,也同时可以解决本体概念和自然语言词汇之间抽象与具体、普遍性与特殊性的矛盾造成自然语言词汇无法准确映射到本体概念的问题,并且实验结果表明:提出的文档语义分类模型能够较大地提高文档分类的性能,降低文档分类的时间,比较适合快速有效对网络上海量文档进行语义分类。最后对文档语义分类的应用领域进行了分析和探讨。