论文部分内容阅读
在大数据时代,从互联网中获取有用信息、提炼相关知识的难度越来越大。尽管现有的搜索引擎能够检索几乎全部的网页,但它们对信息的整合与再现去口难以令人满意。具体到某个行业或者机构,长时间的信息化积累了大量的项目文档、服务资源。融合新旧资源,规范术语,提高利用率成为新型信息化的典型需求。信息过载对人们理解信息造成的困扰越来越大。为此,需要利用本体对海量信息进行理解和处理。 本体是全部知识的形式化表达。英文本体的应用已经日趋成熟,但大型中文本体的研究工作还在实验阶段。本文的研究对象为中文本体中最基础的部分——中文概念分类体系。本文从认知学的角度探讨了概念以及概念之间的关系。结合现代汉语语法和使用习惯,分析了概念的获取途径,概念与词性、概念与标点符号的关系,以及概念之间类属关系所在语句的各种模式。综合利用类属关系的语言学特征和上下文特征构造贝叶斯分类器,有效提高了识别类属关系的准确性。在具体应用方面,本文展示了一个军事领域概念分类体系的构建过程及其在服务匹配方面的应用。本文的主要创新点有四个:1.提出“顿等模式”,利用其中的对义词构造概念图来刻画概念的分布规律;2.在利用模式匹配从语句中提取类属关系时提出保留上下文名词作为类属关系的特征;3.提出一个融合语言学特征和上下文特征的贝叶斯分类器来识别类属关系;4.提出一种基于分类体系的语义匹配算法,达到了优化服务匹配的目的。