基于WordNet和SUMO本体集成的文档语义分类模型的设计与实现研究

来源 :山东理工大学 | 被引量 : 0次 | 上传用户:ytw2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的普及和Internet的迅猛发展,数字化的文档信息总量呈指数级的速度增长。面对网络上分散杂乱且具有一定利用价值的海量文档信息资源,如何有效利用它们,发挥它们的最大利用价值成为我们目前面临的难题。为解决这一难题,我们亟需一种快速有效的文档自动分类方法对它们进行分类整理,以便用户能够更快捷地获取利用它们。然而传统基于词向量空间的文档自动分类方法,虽然方法简单、易于学习,在对小规模文档进行分类时具有较高分类速度,但是其忽略词间重要语义关系,不能解决同义词、多义词、词间上下位关系等问题,导致向量空间维度高,分类性能低,在对海量文档分类时分类速度较慢,增加用户从海量信息中检索利用有用信息的难度。对此,国内外学者提出一系列语义驱动的文档自动分类方法,其虽然能够在一定程度上解决传统文档自动分类方法中存在的问题,但因其刚刚兴起,相关技术与方法还不太成熟,目前还基本上停留在理论、模型、框架研究阶段,且提出的方法语义推理能力要求高,计算复杂度高,无法快速有效对网络上海量文档进行语义分类。  针对上述问题,本文以本体集成和文档语义分类为研究对象,以语义分类过程中需要用到的两个本体库:WordNet和SUMO为例。首先通过广泛阅读国内外相关文献,梳理出本体集成和文档语义分类方面的基础理论。然后详细分析和探讨WordNet和SUMO本体库及两者之间的映射机制,基于此,设计和实现基于WordNet和SUMO本体集成的文档语义分类模型。该模型首先利用WordNet同义词集与SUMO本体概念之间的映射关系,编写正则表达式,对SUMO和WordNet本体库进行集成,形成涵盖WordNet同义词集与SUMO本体概念一一映射关系的集成本体库;然后在此基础上,设计和实现了一个映射算法,快速有效地将传统高维词向量空间映射成低维的概念或语义向量空间,实现文档的语义分类。不仅可以有效解决传统文档自动分类方法和目前语义分类方法中存在的问题,也同时可以解决本体概念和自然语言词汇之间抽象与具体、普遍性与特殊性的矛盾造成自然语言词汇无法准确映射到本体概念的问题,并且实验结果表明:提出的文档语义分类模型能够较大地提高文档分类的性能,降低文档分类的时间,比较适合快速有效对网络上海量文档进行语义分类。最后对文档语义分类的应用领域进行了分析和探讨。
其他文献
科学评价是以科学计量的理论和方法为基础,综合运用各种科学的程序和方法,对知识体系、成果及知识活动等进行测度、评判的过程。通过开展科学评价研究,可以深入了解科学体系的内
摘 要:软枝油茶的优势主要表现在较高的经济效益,便于管理,投入成本低,属于一种高产优质的油料树种,具有较高的经济价值和绿化价值,因此能够作为低产油茶林改造的最佳选择树种。本文主要分析了软枝油茶繁育,并且研究了软枝油茶的高产栽培技术,希望能够对软枝油茶栽培起到参考性价值。  关键词:软枝油茶;繁育;高产栽培技术  中图分类号:S794.4 文献标识码:A 文章编号:1004-7344(2018)23
信息化建设是当今企业改革的必由之路,ERP实施是信息化建设的主要途径,业务流程重组又是ERP实施的前提条件。但业务流程重组带来的高风险驱使人们寻求新的研究方法,信息流重组就是从信息流的角度研究业务流程重组的新方法。 本文从分析业务流程重组入手,在概述业务流程重组研究的基础上,重点分析了业务流程的要素构成,并将业务流程简化为信息流与物流两大要素,提出了研究业务流程的两个层面:信息层面与业务层面