论文部分内容阅读
本文面向中文信息处理的实际需要,以现代汉语框架语义知识库(ChineseFrameNet,简写作CFN)为处理对象,研究如何对这部词典进行有效的信息组织,使之成为一部计算机可读、可理解的语义词典,为新一代万维网——语义Web中的语义知识共享以及智能化、个性化的Web服务提供基础资源。现代汉语框架语义知识库是一个以Fillmore的框架语义学为理论基础、以真实语料为依据编纂的汉语计算机语义词典,它包括框架库、词汇库及例句库三个子库。如何有效地对CFN的各种资源进行知识表示,是最大限度地实现其应用价值的关键问题。知识本体(Ontology)是一种新的基于WEB的信息组织方法,它能够有效的对因特网上的海量信息进行组织、管理和维护。从知识共享角度看,本体可以看作是一种概念化的显示说明,是对客观存在的概念和关系的描述,它将隐性的概念模型表达出来,大大减小了机器理解问题域中的概念和逻辑关系时可能造成的误解。本文即以本体为描述工具,提出了一种专门针对词汇语义知识库的信息组织表示方法,即利用知识本体的组织方法将语义词典的信息组织起来,将概念按不同抽象度来划分层次,构造面向特定领域的框架语义知识集,收集所有与该领域有关的词汇(术语),通过节点的方法——对应的放入顶层概念(框架)内,来构建专门针对CFN的本体模型。我们通过已经对几个构建好的框架进行描述,成功的使用了XML标记语言对其结构进行描述,使得中文框架网络在结构标记上有了一个成功的样例。之后用RDF+RDFS对框架的内部信息进行资源描述,充分学习及实践了资源描述联系词汇的重要性,在对一个资源描述前必须先定义一系列文档内需要用到得词汇,这样在文档中应用这些定义过的词汇和属性,便于计算机在读取文档的时候能够快速准确的得到必要的信息,但是仅仅用RDF+RDFS对框架进行描述,除了其自身没有推理机制外,它在书写上面也有些繁琐。因此,我们最后选择了运用OWL对框架进行描述,因为其自身带有的判定推理系统,再加上框架网络对词汇准确定义的优势。文章主要分为两个部分,第一部分包括第二章和第三章,主要阐述现代汉语框架语义知识库的理论基础和构建方法,同时与知识本体理论相结合,以语义知识库中的词元为目标词,加入语义信息,以“域”为单位将词元以相同特征聚合在一起,对现代汉语词语进行组织;第二部分包括第四章和第五章,主要是针对前两章提出的词典信息组织方法进行应用探索,尝试以形式化的方式对现代汉语框架语义知识库的组合规则进行全面的描写,详细阐述语义Web信息标记语言XML、RDF、OWL的发展历程、特征及文档结构,研究一种基于OWL语言的知识表示方法,并针对CFN中三个子库的实例,分别给出具体的OWL表示样本,以证明这种表示方法的可行性和有效性。就研究意义来说,本文用语义Web标记语言对构建现代汉语框架语义知识库的形式化知识表示做了探索性研究,并得出了具体成果,直接意义在于为中文信息处理的语义分析提供语义知识本体组织方法及其具体描述成果;同时,推动了新一代万维网信息检索技术的发展,使之不再拘泥于关键词检索,而是加入自然语言语义信息,从而提高Web信息检索的查全率和查准率。