【摘 要】
:
本文对电脑理解人类语言问题进行了研究。文章围绕语言是人类对认知世界的知识进行编码的符号系统、电脑要进行“知识处理”必须理解人类的语言、电脑能直接理解的抽象符号语言的设计等进行了阐述。
【机 构】
:
教育部语言文字应用研究所,北京,100010
论文部分内容阅读
本文对电脑理解人类语言问题进行了研究。文章围绕语言是人类对认知世界的知识进行编码的符号系统、电脑要进行“知识处理”必须理解人类的语言、电脑能直接理解的抽象符号语言的设计等进行了阐述。
其他文献
HNC认为,语言之间的翻译需要一个过渡处理的过程,句类转换是六项过渡处理中的一个环节。本文通过对428句经过标注的汉英对照语料的分析,对E块省略句类简明状态句S04J在汉英机器翻译中的句类转换规律进行了一些探索和总结,着重对! 0S04句进行了讨论。
语料库作为自然语言处理及语言学其他分支学科的研究和实验对象,越来越受到重视。其实从揭示语言规律的角度看,语料一直受到研究者的重视。随着计算机技术的发展与普及,获得并处理海量的语料已经变得简单容易了,语料库已经成为一种常规的工具。黄曾阳先生曾经形象地将语料库比喻为农业时代的耕地和工业时代的工厂。从语料库建设角度看,语料库的规模,静态或动态,平衡等方面无疑是重要的影响因素。然而从研究的角度讲,语料库所
语料库具有五种基本性质,知识标记是语料库的重要内容,其中语言知识标记是语料库深加工的核心内容。应广泛搜集已有的语言学文献,将其数字化为语言知识数据库,以大力支持语料库的语言知识的标记,迅速提升计算机的语言智慧。应有计划地开发基于语料库的语言研究软件,方便学者利用语料库,推进语言研究手段的现代化,促进"基于统计"的和"基于规则"的两种语言研究路向的交流与合作。
本书简单介绍了HNC语言理解技术近两年的进展,主要包括句类分析技术和语境单元萃取技术,并对HNC语言理解技术现有的应用和产品作了简单介绍。
在HNC理论范定的57组基本句类中,承受句用以描述作用对象对作用的承受这一语言表达的重要方面。承受句分为一般承受句、主动承受句、被动承受句和特殊承受句四种类型,每种类型都有自己的特点。在汉英翻译时,不同类型的承受句遵循不同的句类及格式转换规律,应采取相应的转换方式。
汉语、英语属于不同的语系,各自有着不同的特点,在汉英机器翻译中是个不容忽视的难点,本文就汉英机器翻译中的辅块及多元逻辑组合问题进行了探讨,总结了一些规则。
本文在HNC理论框架中考察否定语式,首先对否定载体在句中的分布进行描写。否定载体可分布于特征语义块内、辅块内或广义对象语义块内。大部分情况下否定载体是特征语义块的指示符,它作为E块的上下装存在,同时它本身也可以承担句子的E块的核心动词。不论否定载体是做核心E动词,还是承担上下装或者指示JK、fK,它在语义优先指向上都是一致的。我们认为否定载体语义优先指向:量级。
HNC为辅语义块定义了七大类,但由于语言的复杂性,方式、工具和途径辅块之间的区别还比较模糊,本文由这三个辅块的特点入手,从语料库中抽取了有这三种辅块的句子,分别对其特点进行了分析,从它们的标志符、内涵信息及同句类的联系展开,为每个类型的辅块建立辅块标志符库,总结其所从属的全局或局部E。比较了三者的不同,提出了辨识这三种辅块的策略。
HNC的句类分析处理句子的基本策略是:"中间切入,先上后下"。概括为三个环节:语义块感知,句类假设检验,语义块构成分析。HNC的分词处理则贯穿在这三个环节当中。本文分别从伪词和新词两方面介绍HNC的处理方法。对伪词的分析本文从三个方面来进行了讨论,对于新词,本文从以下的四个方面进行了介绍。介绍了HNC理论下对于解决分词以及新词的优势。
"的"字是频率最高的汉字。本文主要用《江泽民同志在庆祝中国共产党成立八十周年大会上的讲话》做语料,集中分析"的"的第一个音,把"的"字功能细分为:(1)句类转换及EK构成分析,占2.61%;(2)句蜕及其包装,占48.01%;(3)多元逻辑组合结构,占37.45%;(4)简单的对象内容之分,占8.58%;(5)简单修饰关系,占8.58%。本文还概述了HNC的"的"字处理机制,简要说明与"的"字密切