【摘 要】
:
本文从语句理解处理的角度出发,运用HNC句类知识,总结了"给"的意义和用法,把"给"的意义和用法归结为特征语义块、下装、语言逻辑概念、动静搭配或者高低搭配以及"给…以…"的固定搭配等。根据"给"在句子中出现的上下文区分了三种情况,对"给"的多义模糊消解制订了处理策略和流程。
【机 构】
:
北京大正语言知识处理研究院,北京,100081
论文部分内容阅读
本文从语句理解处理的角度出发,运用HNC句类知识,总结了"给"的意义和用法,把"给"的意义和用法归结为特征语义块、下装、语言逻辑概念、动静搭配或者高低搭配以及"给…以…"的固定搭配等。根据"给"在句子中出现的上下文区分了三种情况,对"给"的多义模糊消解制订了处理策略和流程。
其他文献
语料库具有五种基本性质,知识标记是语料库的重要内容,其中语言知识标记是语料库深加工的核心内容。应广泛搜集已有的语言学文献,将其数字化为语言知识数据库,以大力支持语料库的语言知识的标记,迅速提升计算机的语言智慧。应有计划地开发基于语料库的语言研究软件,方便学者利用语料库,推进语言研究手段的现代化,促进"基于统计"的和"基于规则"的两种语言研究路向的交流与合作。
本书简单介绍了HNC语言理解技术近两年的进展,主要包括句类分析技术和语境单元萃取技术,并对HNC语言理解技术现有的应用和产品作了简单介绍。
在HNC理论范定的57组基本句类中,承受句用以描述作用对象对作用的承受这一语言表达的重要方面。承受句分为一般承受句、主动承受句、被动承受句和特殊承受句四种类型,每种类型都有自己的特点。在汉英翻译时,不同类型的承受句遵循不同的句类及格式转换规律,应采取相应的转换方式。
汉语、英语属于不同的语系,各自有着不同的特点,在汉英机器翻译中是个不容忽视的难点,本文就汉英机器翻译中的辅块及多元逻辑组合问题进行了探讨,总结了一些规则。
本文在HNC理论框架中考察否定语式,首先对否定载体在句中的分布进行描写。否定载体可分布于特征语义块内、辅块内或广义对象语义块内。大部分情况下否定载体是特征语义块的指示符,它作为E块的上下装存在,同时它本身也可以承担句子的E块的核心动词。不论否定载体是做核心E动词,还是承担上下装或者指示JK、fK,它在语义优先指向上都是一致的。我们认为否定载体语义优先指向:量级。
HNC为辅语义块定义了七大类,但由于语言的复杂性,方式、工具和途径辅块之间的区别还比较模糊,本文由这三个辅块的特点入手,从语料库中抽取了有这三种辅块的句子,分别对其特点进行了分析,从它们的标志符、内涵信息及同句类的联系展开,为每个类型的辅块建立辅块标志符库,总结其所从属的全局或局部E。比较了三者的不同,提出了辨识这三种辅块的策略。
HNC的句类分析处理句子的基本策略是:"中间切入,先上后下"。概括为三个环节:语义块感知,句类假设检验,语义块构成分析。HNC的分词处理则贯穿在这三个环节当中。本文分别从伪词和新词两方面介绍HNC的处理方法。对伪词的分析本文从三个方面来进行了讨论,对于新词,本文从以下的四个方面进行了介绍。介绍了HNC理论下对于解决分词以及新词的优势。
"的"字是频率最高的汉字。本文主要用《江泽民同志在庆祝中国共产党成立八十周年大会上的讲话》做语料,集中分析"的"的第一个音,把"的"字功能细分为:(1)句类转换及EK构成分析,占2.61%;(2)句蜕及其包装,占48.01%;(3)多元逻辑组合结构,占37.45%;(4)简单的对象内容之分,占8.58%;(5)简单修饰关系,占8.58%。本文还概述了HNC的"的"字处理机制,简要说明与"的"字密切
本文对电脑理解人类语言问题进行了研究。文章围绕语言是人类对认知世界的知识进行编码的符号系统、电脑要进行“知识处理”必须理解人类的语言、电脑能直接理解的抽象符号语言的设计等进行了阐述。
本文对当前自然语言处理研究进展情况进行了介绍。文章指出,语言分析的根本任务就是结构分析。如果在语法、语义和概念层次的结构分析搞清楚了,语言分析的问题就解决了。这在当前的条件,还有相当的路程要走,国内机器翻译的研究还有待深入。