论文部分内容阅读
领域本体已经被广泛应用于知识工程和人工智能等多个领域,对企业的知识管理起着关键作用。特别是以产品为核心的离散制造企业,其主要的知识资产存在于产品和开发产品的流程中,对制造企业进行知识管理,需要对产品知识重新建模。本体可以形式化地表达问题,提供规范化、统一的知识表达形式,为知识的共享和重用提供模型。所以,在离散制造企业中引入领域本体进行知识管理至关重要。但是,人工构建领域本体费时费力,因此,自动或半自动构建领域本体成为研究的热点。论文对领域本体学习中的两个关键问题,即术语及其关系的自动获取方法展开研究,以提高领域本体自动构建的有效性,为企业知识管理提供较好的模型和方法。基于非结构化文本完成了以下几个方面的工作:(1)提出基于信息熵和词频分布变化的无监督术语抽取方法。通过将信息熵结合到词频分布变化公式中进行术语抽取,且应用简单语言学规则过滤普通字符串。该方法对低频术语有较好的抽取效果,同时抽取出的术语结构更完整。(2)提出一种基于条件随机场(Conditional Random Fields, CRF)和主动学习相结合的领域术语抽取方法。由于无监督机器学习方法抽取术语的精确率较低,而有监督方法要求有高质量大规模已标语料,人工标注领域语料代价大。引入主动学习方法,使用不确定性样本选择策略,计算CRF模型中的条件概率置信度,利用该置信度进行样本选择,使得通过较少的标注语料即可获得较高的精确率。(3)提出基于多策略的术语关系抽取方法。针对术语关系类型的多样化问题,采用多方法结合的策略自动获取术语关系,主要研究同义关系和层级关系的获取,将基于规则的方法、基于统计的方法以及基于聚类的无监督机器学习方法结合,不同类型的关系采用不同的方法,使得对于层级关系的抽取获得了较好的性能。(4)提出基于组合核函数和分布式元学习策略的实体关系抽取模型。将基于特征的平面核和基于句法的结构核进行组合,并结合分布式和元学习策略实现了中文实体关系抽取。实验结果表明,该方法的综合F-值比目前最好的系统高出近3个百分点。为验证所提出方法的有效性,还构建了一个汽车领域本体实例。实验结果表明,本文所提出的基于文本的术语及关系抽取方法具有较高的性能,实现了领域本体构建过程中一定程度的自动化,同时也可以应用于词典编撰和文本摘要等其它领域。