论文部分内容阅读
本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如WordNet和CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如OntoLearn,Text-To-Onto等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文web文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用Web页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于ICTCLAS对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。