论文部分内容阅读
知识获取是知识工程中关键的一环,而从文本知识源中获取专业知识是一种重要而常用的途径。但从文本中获取知识并不简单,不管是手工获取还是机器获取,领域专家所使用的概念都很难被识别和抽取出来。另外,由于自然语言的歧义性、非规范性和文本知识源的多样性,常常会产生知识不一致性问题。知识获取的途径主要有三种:第一种是将文本中的概念和关系直接自动的抽取出来的自动化知识获取方式;第二种是依靠人工操作进行知识获取的非自动化知识获取方式;第三种是人机交互合作的半自动化知识获取方式。通过对上述三种知识获取途径的分析,本文选取第三种方式进行知识的获取。知识获取与知识表示两者密不可分,知识获取的前提是采用合适的方法将知识表示出来。只有知识得到了合适的表示,才能更好的实现知识的获取和合理运用。本体作为一种形式化的、概念化的知识表示方法,可以将概念间的语义关系通过层次结构很好的体现出来,而且通过对相同领域中概念的统一,可以实现知识的互通和重复利用。同时,框架表示法作为本体的一种描述语言,可以将概念中所包含的属性和属性值形象、直观的表示出来,有利于对不同知识源中的同一事物或概念进行分析和比较,实现知识不一致性的检测与修正。因此,本文采用基于本体的框架表示对知识进行获取。针对知识获取过程中的不一致性问题,本文首先提出了框架提取算法,实现了文本知识到知识框架的自动获取。其次,利用概念格对框架集的相关性进行分析,为知识框架的检测与合并奠定了基础。然后,对知识不一致性的类型进行了分析和总结,如概念名称不一致、单位类型不一致和知识粒度不一致等,并在框架表示的基础上提出了相应的处理策略。最后,以历史事件知识为例,结合不一致性策略提出了合一算法。并基于Visual studio平台进行实验验证,获取到了高精度和细粒度的历史知识,实现了知识的不一致性检测、修正与合并。通过实验证明了该方法的可行性和有效性,为下一步的知识服务奠定重要的基础。