论文部分内容阅读
对自然语言做准确的处理,在今天这样信息爆炸的社会,越来越显得迫切了。与传统的研究方法相比,本课题不是通过统计的方法对自然语言内容进行猜测,而是通过确定的演算去分析;不是全面的研究自然语言怎么说的,而是着重研究自然语言说了什么;不是研究自然语言深层的和背后的意思,而是研究自然语言字面上的意思。一句话,本课题试图确定地分析自然语言在字面上说了什么。确定的分析自然语言说了什么,就要分析自然语言说到了哪些实体、哪些语义关系以及它们是如何配位的。现有的研究对语言的句法结构关系已有深入的认识,也认识到可以用语义类型体系和意合网络来描述实体和语义关系以及关系论元的配位方式,但还难以做到在句法结构关系的制导下,用完整的语义类型演算理论以及机械的意合网络构造方法来构造自然语言的字面意义。为了弥补上述不足,本文提出了短语结构制导的范畴表达式演算理论。该理论对语言的描写和解释采用分层的方法。句法层的短语结构提供相关信息帮助进行范畴表达式的演算和意合网络的构造;在基本语义类型体系的基础上,范畴表达式可以用来描述实体和关系以及关系论元的配位方式,并且关系论元的配位方式可以通过范畴表达式演算建立;在范畴表达式演算的基础上,我们探讨了意合网络的机械构造方法。具体的说,本课题包括以下内容:(1)泛范畴表达式的定义。语言的顺序、语言成分的同一性、语言的模式、语言的变换、联合结构等都是语言学和计算语言学关心的语言现象。在基本语义类型体系的基础上,围绕如何合理的描述和解释这些语言现象,循序渐进地给出了泛范畴表达式的定义。(2)范畴表达式及其演算。范畴表达式是比泛范畴表达式更加严格也更加抽象的表述。在用一种有向无环图表示范畴表达式的基础上,我们定义了范畴表达式之间的约分运算,而约分又是通过合一运算完成的。这里的合一运算借鉴于复杂特征语法中的合一运算,但又是不同的。(3)意合网络的定义及其机械构造。意合网络是一个由节点和边组成的图。在范畴表达式演算的基础上,我们给出了意合网络的构造原理,并探讨了静态意合网络和动态意合网络的机械构造方法。(4)词汇和规则的标注以及普遍语言现象的考察。词汇和规则是短语结构制导的范畴表达式演算的基础。围绕代词、名词、动词、形容词等阐述了词汇标注的形式和方法。结合普遍语言现象的考察,阐述了规则的标注形式以及典型规则的标注方法。通过词汇和规则的标注以及普遍语言现象的考察可以看出,短语结构制导的范畴表达式演算理论具有很强的解释能力,并在实际上也是可行的。(5)歧义与语义指向的考察。句子存在歧义,句子成分的语义指向有时并不和它的句法结构一致,这些都是语言学家和计算语言学家特别关注的现象。短语结构制导的范畴表达式演算理论对歧义的分解和消除以及语义指向的判定提供了新的计算手段。