论文部分内容阅读
本文面向中文信息处理的实际需要,尝试以形式化的方式对现代汉语短语结构的组合规则进行全面的描写,并探讨解决短语结构歧义问题的途径。全文共七章。第一章对中文信息处理技术的发展状况以及目前现代汉语语法研究的水平进行了宏观分析。以此为背景,确定了本课题研究所针对的对象为短语结构,预期的目标是完成一个带有丰富约束条件的现代汉语短语结构规则库。特别值得指出的是,这样的短语结构规则库是以一部对现代汉语词语进行了全面句法语义属性描述的电子词典作为底层支撑的。第二章贯彻词组本位语法理论以功能为原则建立句法范畴的精神,将以往对词的句法功能分类和属性特征的研究进一步全面拓展到短语结构上,得到了一个相对完整的短语结构功能分类体系,并初步确立了一套描述短语结构句法功能属性的范畴体系。同时,本文吸收了汉语配价理论、动词格框架等的具体研究成果并加以拓展,提出了一个面向中文信息处理的综合的语义信息描述框架——“广义配价模式”,以及一个简化的语义分类体系。第三章在上述句法语义属性范畴基础上,对四类主要的现代汉语短语结构:np、ap、vp、dj的组合规则进行了系统而具体的形式化描写。这部分工作可以概括为,将以往面向人所做的有关汉语短语结构的句法语义研究的成果,加上作者本人的研究和实践,组织成了一部可以为计算机分析汉语短语结构提供直接支持的规则库。从形式上讲,一条短语结构规则包括两部分,产生式规则和合一等式。产生式规则用于描述汉语短语结构的一种组合可能性,合一等式则进一步描述一个特定的组合模式的的整体性质及组合条件。本章总结了有关上述四类短语的规则共89条。第四章细致分析了计算机处理汉语短语结构时面临的定界歧义和结构关系歧义问题,从不同角度区分了抽象的歧义格式的不同类型:包含终结符的歧义格式与不含终结符的歧义格式;外显型歧义格式与内含型歧义格式;真歧义格式、准歧义格式、伪歧义格式等。在已有短语结构规则的基础上,利用一个简单的分析程序对现代汉语短语结构歧义格式(不含终结符的3项排列歧义格式和含终结符“的”跟“和”的4项和5项排列歧义格式)进行了统计,得到了计算机分析现代汉语短语时可能碰到的歧义格式的一个比较完整的清单。第五章则在对汉语短语结构歧义有了全面系统的认识基础上,通过对三个典型的短语歧义格式进行分析,进一步探讨了排歧策略,并对难以在短语结构规则层面解决的歧义分析问题,指出困难所在,为将来的排歧研究打下了基础。第六章以计算机分析实例的结果展示了本文研究所得到的短语结构规则在一个具体的汉语句法分析器中使用的实际效果。第七章对全文的研究工作进行了总结,包括具体的研究成果,对中文信息处理研究所能提供的支持,以及对汉语语法研究的意义等,最后对进一步的研究工作进行了规划。本文的研究工作是跨现代汉语语法和中文信息处理两个领域进行的。一方面,研究的具体结果对推进中文信息处理技术的发展有直接的应用和参考价值;另一方面,从中文信息处理的角度来审视现代汉语语法研究,可以为研究工作提供一个清晰的实用背景。不仅可以注意到以往面向人的研究不容易注意到的一些问题,而且也使得语法研究中的许多问题能够在一个形式系统的框架中得到更明确、更规范的表述。