论文部分内容阅读
摘 要:名词短语是构成句子的重要语言单位,其复杂性、歧义性的特点对计算机处理语言造成了很大困扰。运用概念层次网络(Hierarchical Network of Concepts)理论分析越南语名词短语内部构成,并结合语义块知识对越南语名词性语义块进行探讨,可以发现,越南语名词性语义块有五种组成模式。对越南语名词短语进行形式化描述,可以为越南语自然语言的计算机处理提供新的视角。
关键词:概念层次网络;越南语;名词性语义块;内部结构
名词短语,是自然语言句子中数量最多、比重最大、内部结构最为复杂的语言单元,它所承担的句法功能比其他类型短语更为多样。目前对名词短语的研究已有不少,大多是从传统句法层面(詹卫东,2000;张孝荣,2010;钱小飞等,2017)、DP假说理论(肖红,2005;周君,2014;李亚非,2015)等方面进行探讨,但随之而来的歧义问题却难以解决。概念层次网络(Hierarchical Network of Concepts,简称HNC)是一种将自然语言映射到概念空间的理论体系。它通过模拟人类大脑对自然语言理解的脉络联想过程,使计算机在消解语言歧义方面有所提高。HNC具有多个概念节点,能将隐性知识显性化地用符号系统来表示,有利于计算机理解自然语言。
在概念层次网络中,短语则对应于语义块这一概念,语义块作为句子的下一级语义构成单位,是构成句类的函数(苗传江,2015:54),它在句类中充当十分重要的角色。例如,可以通过语义块的个数和顺序、特征语义块(EK)的类型来判断该句所属类型。从服务于语言信息处理的角度出发,无论是何种自然语言理解任务都需要对句子进行词汇分析、句法分析以及语义理解。HNC理论通过对语义块的分析,得到相应的句类信息,直接从词形上升到词汇意义概念层面,省略了从词形到“实物”的对应过程。
根据语义块承载语义信息的重要程度,HNC理论将其分为主语义块(即句子的中心主干成分)与辅语义块(即可选的辅助性成分)。本文主要是对主语义块中作名词性成分的名词性语义块进行探讨,在此基础上对名词性语义块的内部构成进行分析总结。本文第一部分对HNC语义块的相关知识进行简要介绍;第二部分从短语结构语法层面,对越南语名词短语的内部结构进行梳理;第三部分主要对越南语名词性语义块进行分类研究。
一、基于HNC理论的语义块知识
在HNC理论的基础上,所有自然语言句子均可以用语义块的排列组合来表示。例如,在转移句中分别存在转移动作发出者TA、转移T、转移接收者TB以及转移的内容TC,其句类表达式为:TJ=TA+T+TB+TC。由此可以看出,句子是由语义块组合构成的。语义块可以由一个单独的词、一个短语、一个句子来构成。HNC理论将主语义块分为A(作用者)、B(对象)、C(内容)、E(特征)四大类,其中,A、B、C统称为广义对象语义块(JK),而E因决定句类则被称之为特征语义块(EK)。A与B被统称为句子说明的对象,并依据动作的主动性程度进行区分判定;EK常常由谓词性成分来担任,如喜欢、送给、打等。从这四类主语义块各自特点来看,名词性语义块通常作广义对象语义块(JK),在个别情况下也可以充当特征语义块。
与传统语言学将短语划分为中心成分与修饰成分不同,HNC认为,在语义块中包含着核心部分与说明部分。例如,在“张先生喜欢李小姐的个性”一句中,对“李小姐的个性”这一名词短语,传统短语结构语言学将“个性”视作中心成分,“李小姐的”则充当限定性成分。而在HNC理论则不同,“李小姐”与“个性”是反应引发者及其表现,“李小姐”与“张先生”之间有直接引发关系,所以“李小姐”是语义块的核心成分。“张先生喜欢李小姐的妹妹”与上句句法结构完全相同,但“李小姐”和“妹妹”并不是反应句的引发者及其表现,而是作为一个整体充当反应引发者,因此,“妹妹”是语义块的核心部分,“李小姐”只是语义块的说明部分。
众所周知,語言的复杂性特征使得计算机在分析处理自然语言时困难重重,HNC理论可以对语言中的歧义、模糊现象进行理解和分析,并在中文自然语言处理中得到成功应用。这主要体现在以下方面:
一是语言具有嵌套性,在理论上可以无限嵌套进行下去。如“张先生喜欢李小姐”“张先生喜欢貌美的李小姐”“张先生喜欢貌美的李小姐的气质”等。HNC将这一现象解释为广义对象语义块的B-C分解(对象和内容的分解),只要计算机识别出来语义块的边界,就可以将无论嵌套多长的语义块提取出来,有利于更进一步的句法分析与语义理解。
二是语序具有灵活性,它直接表现为一个意思可以由若干种句式来表达。如“张三打断了李四的腿”“李四的腿被张三打断了”“李四被张三打断了腿”,这三种句式虽然不同,但表达的意思完全相同。前两句分别是作用句的基本格式与规范格式(HNC理论中对应为!12代码)。第三句通常情况下被认为有四个组成部分,即“李四”“张三”“打断了”“腿”。但HNC仍将它视为是三主块句规范格式,其中,“李四”与“腿”之间发生了广义对象语义块的分离现象,它们本是一个语义块单位。
三是句子作语义块的情况,这是语义块复杂构成的特殊形式,在HNC中称之为句蜕与块扩。句蜕指的是由句子蜕变成语义块或者是其中一部分,包括原型句蜕和要素句蜕两类。其中,原型句蜕就是句子不经变化直接当作语义块使用。要素句蜕又包括JK要素句蜕和EK要素句蜕两类,主要区别在于突出的核心成分是JK还是EK。在句蜕的基础上加入其他成分就构成了包装句蜕。例如,“老师知道张三打断了李四的腿这件事”就是原型包装句蜕,“老师不相信打断了李四的张三的谎话”就是JK要素包装句蜕。块扩这一概念,顾名思义,可以理解为语义块扩展为一个句子的情况,但这种情况是有选择性的,并不适用于所有语义块。在信息转移句中,JK3常常用来表示信息转移的内容,如“我告诉他今天我要去北京参加会议”中,“今天我要去北京参加会议”是转移句的JK3语义块。传统上将这类句子称为复句,“今天我要去北京参加会议”是其中的分句,而HNC理论将它解释为信息转移句的JK3块扩成一个句子。 上述这些在传统语言学无法充分解释的语言现象,用HNC理论则可以得到清晰地处理及表示。可以说,HNC理论是为了将自然语言映射为机器能“读懂”的形式化语言的一套符号体系,是解决自然语言处理任务应运而生的有力工具。
二、越南语名词短语构成
(一)越南语特征分析
越南语是一种孤立语,属南亚语系越芒语族。由于受汉文化影响较大,越南语同中文具有一定的相似性。一是同为孤立语,缺少形态变化以及语法标记,语法的表示通常采用虚词、词序等方式。二是越南语中存在大量的汉越词,无论是发音还是结构,都与中文保持高度的同一性。三是语序都采用SVO形式,在语言形式上具有相通性。四是越南语同汉语一样,是意合性语言(李亚非,2015)。在语序上十分灵活,人们对于一句话的表达往往不局限于一种形式。与英文相比,汉、越语对句法结构、语法规则的限定性远不如英文,这就给汉、越语自然语言处理带来了一定的困难。从字到词,从词到短语,从短语到句子,随着语言单位的不断扩大,语言的复杂性也随之呈指数级增长。名词短语作为短语中出现频次最高、使用最为广泛的语言单位,其内部结构要比其他类型短语更为灵活多变。名词短语结构的复杂性体现在,从它的修饰成分或是限定成分的角度来看,可以是一个词语、一个短语、甚至是一个句子对中心词的修饰。在一定程度上说,要对名词短语成分的语言结构进行识别研究,几乎已经包含了对其他类型短语甚至是句子结构的研究。
越南语与汉语除了有诸多相似之处外,两种语言之间也有很大的差异性。其中最突出的一点就是越南语中的定语后置,这在名词短语中体现得尤为明显。在越南语中,定语可以分为两种类型:前置定语与后置定语。前置定语一般用数词+单位词来表示。后置定语则相对复杂的多,如汉语中的“越南社会主义共和国”,对应于越南语则是:“N??c(国)C?ng hoà(共和)X? h?i ch? ngh?a(社会主义)Vi?t Nam(越南)”,可见其词序与中文有很大不同。一般而言,在越南语中,越能表现中心词特性的与中心词距离也越近,音节少的词离中心词近,指示代词通常放在最后。
(二)越南语名词短语构成
在越南语中,将名词作为中心的短语称作名词短语(Lo?i ?o?n ng? có danh t? làm trung t?m g?i là Cu?m Danh T??,g?i t?t là danh ng?.)。名词短语一般由前定语+中心词+后定语组成。前定语一般可包含三种成分:P1+P2+P3。其中,离中心词最近的P3使用表示类别的单位词,如cái,con,chi?c,qu?,t?m,b?c,ngài,v?等,组成的名词短语可以是con(头)voi(大象),cái(个)v??n(花园),b?c(面)t??ng(墙)等。这类成分还可以与表示类别的单位词连用形成复合词的形式。此外,P3还可以是th??c,lít,c?n,ng?m,n?m等表示度量的单位词。P3前面的P2是用来表示数量的数词,如nh?ng,các,m?i,m?i,m?t,t?ng以及一些数字。置于短语首部的P1一般为t?t c?,t?t th?y,h?t th?y,c?等用来表示总量的数词。
后定语同样也包含三大成分:P4+P5+P6。其中,离中心词最近的P4可以是形容词、名词、介词以及动词。如果P4表示的是通常性、根本性的特性,那么P5则常常用来表示与中心词相关性较弱的特征。位于短语尾端的P6常用来表示对应于中心词的时间或空间的指示代词,如này,kia,?y,n?,?ó。越南语名词短语的构成,具体如表1所示:
针对越南语后置定语的复杂性,谭志词等(2013:120)根据定语同中心词相关性的强弱,将它分为表示特性、性状、特征、指示代词、表示关系的关联词结构、表示地点时间、表示领属、主谓词组、表示对象等类型。其中,特性、性状、特征等大多由形容词(短语)、名词(短语)、动词(短语)等充当,其他类型定语则由介词短语、主谓结构(小句)构成,定语的多形式化直接造成名词短语内部结构的复杂性、多样性。越南语复杂后置定语的具体情形,如表2所示:
三、基于HNC的越南语名词性语义块分类
根据HNC理论中的语义块知识,我们对越南语名词性语义块进行了分析,归纳出以下五种类型:
(一)含说明部分循环嵌套的语义块
由一个名词在句中单独充当语义块,是最简单、最基础的结构组成。如:“Minh la? sinh viên(阿明是个学生)”中,“Minh(阿明)”“sinh viên(学生)”分别是基本判断句的DB、DC,都是由单独一个名词作语义块的情况。当出现了修饰性成分时,就会产生广义对象语义块中的说明部分循环嵌套现象,以此来解释语言的非线性特点。如“sinh viên(学生)”加上形容词变成“sinh viên t??t(好学生)”,或是“sinh viên(学生)”加上数词进行限定而变为“m??t sinh viên(一个学生)”。在这种情况下,语义块的核心成分并未发生改变,只是语义块中的说明部分不断增加的结果,与短语结构理论中的中心词及其限定性成分、描写性成分相对应。
(二)B-C分解的名词性语义块
第一类所涉及的是有关说明部分的嵌套现象,而在很多情况下,名词性语义块是由B(对象)、C(内容)语义块复合构成的,可合记作BC。BC中的对象B可以进一步分解成B与C,同样C也可以再次分解成B与C。如:“C? ??y ?a? gia?i quyê?t nh??ng v??n ?ê? cu?a ho?c sinh co? kho? kh?n(老師已经解决了困难学生的问题)”中,“nh??ng v??n ?ê? cu?a ho?c sinh co? kho? kh?n(困难学生的问题)”被视作是XB(对象)、XC(内容)①语义块的融合。在XBC中,“nh??ng v??n ?ê?(问题)”是语义块的内容XBCC,“ho?c sinh co? kho? kh?n(有困难的学生)”充当XBC中的对象XBCB;在这个对象XBCB之中,“ho?c sinh(学生)”又是XBCB中的对象XBCBB,“co? kho? kh?n(有困难的)”是XBCB中的内容XBCBC。此外,在越南语中,当BC中的B发生分解时,常常会出现中心词的转变。如:“?ng Tr??ng thi?ch c? Ly? sinh ?e?p(张先生喜欢貌美的李小姐)”与“?ng Tr??ng thi?ch ca?i khi? ch??t cu?a c? Ly? sinh ?e?p(张先生喜欢貌美的李小姐的气质)”,后句相比于前句,发生了XBCB的分解。正是由于越南语定语后置“前正后偏”的语言特点,其中心语由原来的“c? Ly?(李小姐)”转变成了“ca?i khi? ch??t(气质)”。不过,在HNC中,语义块的核心内容还是“c? Ly?”。 第一类与第二类虽然都是语义块内部结构的循环模式,但在根本上有很大不同。第一类侧重于说明部分的嵌套迭代,第二类是语义块分解的特殊情况。这两类都能说明语言的层次性与非线性特点,HNC对它们的理解也更加直观与全面。
(三)含句蜕现象的名词性语义块
在越南语中,常存在“N+V+N”的歧义现象,该词性组合序列既可以表示一句话,也可以是一个短语,其中,“V+N”作定语修饰前面的中心词。在传统语法中,往往将“V+N”结构作定语的情况,解释为省略介词“ma?”的特殊形式。这类“句子型”的名词性语义块结构复杂,在HNC理论中,则将它解释为语义块的句蜕现象。可以说,正是由于越南语定语后置的特殊性,使得本是要素句蜕的表达同原型句蜕的完全相同。如:“các ho?t_??ng tr?_giúp ng??i tàn_t?t(帮助残疾人的各项活动)”,该句子是“各项活动帮助残疾人”的JK要素句蜕,正是由于越南语定语后置的特点,导致这两句话译成越南语时句子完全一样。计算机在处理这类歧义现象时,很难弄清楚该类表达到底是表主谓宾的句子成分还是短语成分,而HNC就给出了消解歧义的方法,即通过对句类中语义块的切分进而做出有效判断。在越南语中,除了语义块全部成分的句蜕,还存在语义块内部部分结构的句蜕。如:“nhi?m v? ki?m_tra,??n ??c các B?,ngành,??a_ph??ng(检查督促各部、各界、各地方的任务)”,它与上个例子在句法结构上完全相同,但上个例子中的“各项活动”可充当句子的主语,也就是JK1;而此例中,“nhi?m v?(任务)”后面的动词短语(动宾结构)作定语。从语义限制的角度来看,“nhi?m v?(任务)”就不能作“ki?m_tra , ??n ??c(检查、督促)”等特征语义块的JK1成分,该类动词的主语应当由pp类(HNC概念节点中的“人”)概念来充当。在此例中,可以理解为“ki?m_tra,??n ??c các B?,ngành,??a_ph??ng(检查督促各部、各界、各地方)”语义块的说明部分所产生的省略主语形式(!3)格式句蜕。总的来看,第三类中含句蜕现象的情况包含了整个语义块句蜕与部分成分句蜕两种情况。
(四)含“cu?a”的名词性语义块核心成分区分
“cu?a”结构在越南语中的重要程度如同汉语中的“的”字结构,通常用来表示领属,该结构在名词短语中使用非常频繁,同时它也是形成越南语定语复杂性的重要原因。一般来说,领属范畴包含了范围领属(如“B??c Kinh cu?a Trung Qu??c”中国的北京)、处所范畴(“s?n v??n ???ng cu?a ho?c viê?n”學校的运动场)、领有范畴(“cu??n sa?ch cu?a t?i”我的书)、亲属范畴(“me? cu?a chi? ??y”她的妈妈)、附属领属(“m??t cu?a anh ??y”他的眼睛)、整体部分领属(“tu?i cu?a a?o”衣服的口袋)、本体属性领属(“ca?i khi? ch??t cu?a chi? ??y”她的气质)、本体特征领属(“di?ch bê?nh cu?a con cho?”狗的病)(沈阳,1995)。在HNC中,“cu?a”结构既可以用来表示C(内容),也可以用来表示B(对象)与C(内容)的融合。当表示后者时,名词性语义块的核心成分往往与短语结构语法所定义的中心成分有所差别。如上文提到的“?ng Tr??ng thi?ch em ga?i cu?a c? Ly?(张先生喜欢李小姐的妹妹)”与“?ng Tr??ng thi?ch ca?i khi? ch??t cu?a c? Ly?(张先生喜欢李小姐的气质)”,“em ga?i cu?a c? Ly?(李小姐的妹妹)”与“ca?i khi? ch??t cu?a c? Ly?(李小姐的气质)”短语结构虽然相同,但前者的核心成分是cu?a 之前的“em ga?i(妹妹)”,而后者语义块的核心成分是“c? Ly?(李小姐)”,处于cu?a结构之后。从越南语含“cu?a”名词性语义块的领属性关系来看,表示本体特征属性的“cu?a”字结构核心成分通常位于后面,其他类型领属关系核心成分位于“cu?a”字之前。因此,“cu?a”字结构到底偏重于前部还是后部,HNC理论可以通过对概念层面的合理解析,得到语义块的核心成分,有利于机器在处理复杂长难句时,对句子主干的正确把握。
(五)名词短语中介词修饰成分辅语义块化
除了第四类中“cu?a”字结构作复杂定语之外,越南语中还存在着诸多介词短语做定语的情况,如引出内容的“vê?……”结构、表示时间空间的“trong/va?o……”结构、表示目的的“?ê?/nh??m……”结构、表示结果的“cho……”结构等。句子除了由主语义块构成外,还存在具有辅助性意义的辅语义块成分,用以表示手段、工具、途径、比照、条件、起因、目的等,对应于一般而言的介词短语。因此,短语结构中的介词短语做后置定语的情况,在HNC中则可被视作是辅语义块的表示形式。例如:
(1)Ch?_th? v? t?ng_c??ng c?ng_tác qu?n_l?,ch?_??o nh?m thúc_??y s? ra_??i,phát_tri?n c?a các b?o_tàng và s?u_t?p t?_nh?n.(有关加强管理与指导工作的指示,旨在促进宝藏与私人藏品的诞生与发展。)
(2)L??i di chu?c vê? viê?c riêng.(个人遗嘱)
(3)B??u kh?ng khi? gia ?i?nh ?oa?n tu? êm ?ê?m trên ki?nh d???i nh???ng tr???c nh??ng ba?n th?? ph??t.(供桌前洋溢着敬上爱下温馨和谐的家庭团聚气氛) 上述用例都是结构复杂的名词性语义块,其中,包含了“vê?”内容说明、“nh?m”目的限制、“c?a”领属成分等介词短语充当定语的情况。根据越南语语法书(Nguy?n Tài C?n,1997)的看法,这些语义块是整体作为一个名词短语,但根据HNC理论的观点,“vê?”“nh?m”等介詞结构是句子的辅语义块,由此来降低语义块内部的构成复杂性。计算机可以通过“分而治之”的方法,先采取将辅语块去除的方式,找出语义块边界;再根据辅语义块的限定对象,对语义块甚至是句类做进一步分析,以此来降低语义块分析解剖的难度。
综上所述,笔者根据越南语语言特点、名词短语结构以及HNC理论,对越南语名词性语义块进行了分类研究。从本文的论述可以看出,对结构复杂的名词短语而言,HNC理论在分析语义块时更为清晰,便于机器的理解,同时也为自然语言处理后续更高层次任务的开展奠定了基础。HNC理论在汉语中已经形式化,并产生了很多成功应用的案例,但不同语言之间会存在一定的差异性,如何针对不同语言的特点,使HNC理论得到更为切实、更为有效的应用,则是今后将面临的关键问题。由于HNC理论是一个关于自然语言理解处理的理论体系,是一套形式化的符号基元系统,而真正做到让计算机处理、理解语言是具体的工程性问题,如何将理论落地,在技术应用层面实现语言智能,也是一项十分艰辛的任务。具体到本文讨论的问题而言,就是在HNC理论指导下,如何找到语义块边界并将相关句类界定清楚。语言现象再复杂多变也总归是有规律可循的,HNC为我们提供了从概念空间层面理解语言的思路,我们也希望这一理论在今后会有更大的发展与突破。
参考文献:
[1]Nguy?n Tài C?n. Ng? pháp ti?ng Vi?t[M].Ti?ng-T? ghép-?o?n ng?,NXB ?H và THCN,1997.
[2]Cheng,L.& R.Sybesma.Bare and not-so-bare nouns and the structure of NP[J].Linguistic Inquiry,1999,(4).
[3]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,南宁:广西科学技术出版社,2000.
[4]钱小飞,侯敏.汉语最长名词短语的结构复杂性研究[J].语料库语言学,2017,(1).
[5]张孝荣.名词短语的内部结构及其句法实现[J].安徽师范大学学报(人文社会科学版),2010,(4).
[6]周君.也谈英汉名词短语的句法层级结构[J].外国语(上海外国语大学学报),2014,(5).
[7]肖红.越南语名词短语的内部结构[D].湖南大学硕士学位论文,2005.
[8]李亚非.也谈汉语名词短语的内部结构[J].中国语文, 2015,(2).
[9]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出版社,2005.
[10]林丽.面向信息处理的越南语主谓谓语句句式转换研究[J].解放军外国语学院学报,2013,(5).
[11]谭志词,徐方宇,林丽.基础越南语(3)[M].北京:世界图书出版公司,2013.
[12]沈阳.领属范畴及领属性名词短语的句法作用[J].北京大学学报(哲学社会科学版),1995,(5).
关键词:概念层次网络;越南语;名词性语义块;内部结构
名词短语,是自然语言句子中数量最多、比重最大、内部结构最为复杂的语言单元,它所承担的句法功能比其他类型短语更为多样。目前对名词短语的研究已有不少,大多是从传统句法层面(詹卫东,2000;张孝荣,2010;钱小飞等,2017)、DP假说理论(肖红,2005;周君,2014;李亚非,2015)等方面进行探讨,但随之而来的歧义问题却难以解决。概念层次网络(Hierarchical Network of Concepts,简称HNC)是一种将自然语言映射到概念空间的理论体系。它通过模拟人类大脑对自然语言理解的脉络联想过程,使计算机在消解语言歧义方面有所提高。HNC具有多个概念节点,能将隐性知识显性化地用符号系统来表示,有利于计算机理解自然语言。
在概念层次网络中,短语则对应于语义块这一概念,语义块作为句子的下一级语义构成单位,是构成句类的函数(苗传江,2015:54),它在句类中充当十分重要的角色。例如,可以通过语义块的个数和顺序、特征语义块(EK)的类型来判断该句所属类型。从服务于语言信息处理的角度出发,无论是何种自然语言理解任务都需要对句子进行词汇分析、句法分析以及语义理解。HNC理论通过对语义块的分析,得到相应的句类信息,直接从词形上升到词汇意义概念层面,省略了从词形到“实物”的对应过程。
根据语义块承载语义信息的重要程度,HNC理论将其分为主语义块(即句子的中心主干成分)与辅语义块(即可选的辅助性成分)。本文主要是对主语义块中作名词性成分的名词性语义块进行探讨,在此基础上对名词性语义块的内部构成进行分析总结。本文第一部分对HNC语义块的相关知识进行简要介绍;第二部分从短语结构语法层面,对越南语名词短语的内部结构进行梳理;第三部分主要对越南语名词性语义块进行分类研究。
一、基于HNC理论的语义块知识
在HNC理论的基础上,所有自然语言句子均可以用语义块的排列组合来表示。例如,在转移句中分别存在转移动作发出者TA、转移T、转移接收者TB以及转移的内容TC,其句类表达式为:TJ=TA+T+TB+TC。由此可以看出,句子是由语义块组合构成的。语义块可以由一个单独的词、一个短语、一个句子来构成。HNC理论将主语义块分为A(作用者)、B(对象)、C(内容)、E(特征)四大类,其中,A、B、C统称为广义对象语义块(JK),而E因决定句类则被称之为特征语义块(EK)。A与B被统称为句子说明的对象,并依据动作的主动性程度进行区分判定;EK常常由谓词性成分来担任,如喜欢、送给、打等。从这四类主语义块各自特点来看,名词性语义块通常作广义对象语义块(JK),在个别情况下也可以充当特征语义块。
与传统语言学将短语划分为中心成分与修饰成分不同,HNC认为,在语义块中包含着核心部分与说明部分。例如,在“张先生喜欢李小姐的个性”一句中,对“李小姐的个性”这一名词短语,传统短语结构语言学将“个性”视作中心成分,“李小姐的”则充当限定性成分。而在HNC理论则不同,“李小姐”与“个性”是反应引发者及其表现,“李小姐”与“张先生”之间有直接引发关系,所以“李小姐”是语义块的核心成分。“张先生喜欢李小姐的妹妹”与上句句法结构完全相同,但“李小姐”和“妹妹”并不是反应句的引发者及其表现,而是作为一个整体充当反应引发者,因此,“妹妹”是语义块的核心部分,“李小姐”只是语义块的说明部分。
众所周知,語言的复杂性特征使得计算机在分析处理自然语言时困难重重,HNC理论可以对语言中的歧义、模糊现象进行理解和分析,并在中文自然语言处理中得到成功应用。这主要体现在以下方面:
一是语言具有嵌套性,在理论上可以无限嵌套进行下去。如“张先生喜欢李小姐”“张先生喜欢貌美的李小姐”“张先生喜欢貌美的李小姐的气质”等。HNC将这一现象解释为广义对象语义块的B-C分解(对象和内容的分解),只要计算机识别出来语义块的边界,就可以将无论嵌套多长的语义块提取出来,有利于更进一步的句法分析与语义理解。
二是语序具有灵活性,它直接表现为一个意思可以由若干种句式来表达。如“张三打断了李四的腿”“李四的腿被张三打断了”“李四被张三打断了腿”,这三种句式虽然不同,但表达的意思完全相同。前两句分别是作用句的基本格式与规范格式(HNC理论中对应为!12代码)。第三句通常情况下被认为有四个组成部分,即“李四”“张三”“打断了”“腿”。但HNC仍将它视为是三主块句规范格式,其中,“李四”与“腿”之间发生了广义对象语义块的分离现象,它们本是一个语义块单位。
三是句子作语义块的情况,这是语义块复杂构成的特殊形式,在HNC中称之为句蜕与块扩。句蜕指的是由句子蜕变成语义块或者是其中一部分,包括原型句蜕和要素句蜕两类。其中,原型句蜕就是句子不经变化直接当作语义块使用。要素句蜕又包括JK要素句蜕和EK要素句蜕两类,主要区别在于突出的核心成分是JK还是EK。在句蜕的基础上加入其他成分就构成了包装句蜕。例如,“老师知道张三打断了李四的腿这件事”就是原型包装句蜕,“老师不相信打断了李四的张三的谎话”就是JK要素包装句蜕。块扩这一概念,顾名思义,可以理解为语义块扩展为一个句子的情况,但这种情况是有选择性的,并不适用于所有语义块。在信息转移句中,JK3常常用来表示信息转移的内容,如“我告诉他今天我要去北京参加会议”中,“今天我要去北京参加会议”是转移句的JK3语义块。传统上将这类句子称为复句,“今天我要去北京参加会议”是其中的分句,而HNC理论将它解释为信息转移句的JK3块扩成一个句子。 上述这些在传统语言学无法充分解释的语言现象,用HNC理论则可以得到清晰地处理及表示。可以说,HNC理论是为了将自然语言映射为机器能“读懂”的形式化语言的一套符号体系,是解决自然语言处理任务应运而生的有力工具。
二、越南语名词短语构成
(一)越南语特征分析
越南语是一种孤立语,属南亚语系越芒语族。由于受汉文化影响较大,越南语同中文具有一定的相似性。一是同为孤立语,缺少形态变化以及语法标记,语法的表示通常采用虚词、词序等方式。二是越南语中存在大量的汉越词,无论是发音还是结构,都与中文保持高度的同一性。三是语序都采用SVO形式,在语言形式上具有相通性。四是越南语同汉语一样,是意合性语言(李亚非,2015)。在语序上十分灵活,人们对于一句话的表达往往不局限于一种形式。与英文相比,汉、越语对句法结构、语法规则的限定性远不如英文,这就给汉、越语自然语言处理带来了一定的困难。从字到词,从词到短语,从短语到句子,随着语言单位的不断扩大,语言的复杂性也随之呈指数级增长。名词短语作为短语中出现频次最高、使用最为广泛的语言单位,其内部结构要比其他类型短语更为灵活多变。名词短语结构的复杂性体现在,从它的修饰成分或是限定成分的角度来看,可以是一个词语、一个短语、甚至是一个句子对中心词的修饰。在一定程度上说,要对名词短语成分的语言结构进行识别研究,几乎已经包含了对其他类型短语甚至是句子结构的研究。
越南语与汉语除了有诸多相似之处外,两种语言之间也有很大的差异性。其中最突出的一点就是越南语中的定语后置,这在名词短语中体现得尤为明显。在越南语中,定语可以分为两种类型:前置定语与后置定语。前置定语一般用数词+单位词来表示。后置定语则相对复杂的多,如汉语中的“越南社会主义共和国”,对应于越南语则是:“N??c(国)C?ng hoà(共和)X? h?i ch? ngh?a(社会主义)Vi?t Nam(越南)”,可见其词序与中文有很大不同。一般而言,在越南语中,越能表现中心词特性的与中心词距离也越近,音节少的词离中心词近,指示代词通常放在最后。
(二)越南语名词短语构成
在越南语中,将名词作为中心的短语称作名词短语(Lo?i ?o?n ng? có danh t? làm trung t?m g?i là Cu?m Danh T??,g?i t?t là danh ng?.)。名词短语一般由前定语+中心词+后定语组成。前定语一般可包含三种成分:P1+P2+P3。其中,离中心词最近的P3使用表示类别的单位词,如cái,con,chi?c,qu?,t?m,b?c,ngài,v?等,组成的名词短语可以是con(头)voi(大象),cái(个)v??n(花园),b?c(面)t??ng(墙)等。这类成分还可以与表示类别的单位词连用形成复合词的形式。此外,P3还可以是th??c,lít,c?n,ng?m,n?m等表示度量的单位词。P3前面的P2是用来表示数量的数词,如nh?ng,các,m?i,m?i,m?t,t?ng以及一些数字。置于短语首部的P1一般为t?t c?,t?t th?y,h?t th?y,c?等用来表示总量的数词。
后定语同样也包含三大成分:P4+P5+P6。其中,离中心词最近的P4可以是形容词、名词、介词以及动词。如果P4表示的是通常性、根本性的特性,那么P5则常常用来表示与中心词相关性较弱的特征。位于短语尾端的P6常用来表示对应于中心词的时间或空间的指示代词,如này,kia,?y,n?,?ó。越南语名词短语的构成,具体如表1所示:
针对越南语后置定语的复杂性,谭志词等(2013:120)根据定语同中心词相关性的强弱,将它分为表示特性、性状、特征、指示代词、表示关系的关联词结构、表示地点时间、表示领属、主谓词组、表示对象等类型。其中,特性、性状、特征等大多由形容词(短语)、名词(短语)、动词(短语)等充当,其他类型定语则由介词短语、主谓结构(小句)构成,定语的多形式化直接造成名词短语内部结构的复杂性、多样性。越南语复杂后置定语的具体情形,如表2所示:
三、基于HNC的越南语名词性语义块分类
根据HNC理论中的语义块知识,我们对越南语名词性语义块进行了分析,归纳出以下五种类型:
(一)含说明部分循环嵌套的语义块
由一个名词在句中单独充当语义块,是最简单、最基础的结构组成。如:“Minh la? sinh viên(阿明是个学生)”中,“Minh(阿明)”“sinh viên(学生)”分别是基本判断句的DB、DC,都是由单独一个名词作语义块的情况。当出现了修饰性成分时,就会产生广义对象语义块中的说明部分循环嵌套现象,以此来解释语言的非线性特点。如“sinh viên(学生)”加上形容词变成“sinh viên t??t(好学生)”,或是“sinh viên(学生)”加上数词进行限定而变为“m??t sinh viên(一个学生)”。在这种情况下,语义块的核心成分并未发生改变,只是语义块中的说明部分不断增加的结果,与短语结构理论中的中心词及其限定性成分、描写性成分相对应。
(二)B-C分解的名词性语义块
第一类所涉及的是有关说明部分的嵌套现象,而在很多情况下,名词性语义块是由B(对象)、C(内容)语义块复合构成的,可合记作BC。BC中的对象B可以进一步分解成B与C,同样C也可以再次分解成B与C。如:“C? ??y ?a? gia?i quyê?t nh??ng v??n ?ê? cu?a ho?c sinh co? kho? kh?n(老師已经解决了困难学生的问题)”中,“nh??ng v??n ?ê? cu?a ho?c sinh co? kho? kh?n(困难学生的问题)”被视作是XB(对象)、XC(内容)①语义块的融合。在XBC中,“nh??ng v??n ?ê?(问题)”是语义块的内容XBCC,“ho?c sinh co? kho? kh?n(有困难的学生)”充当XBC中的对象XBCB;在这个对象XBCB之中,“ho?c sinh(学生)”又是XBCB中的对象XBCBB,“co? kho? kh?n(有困难的)”是XBCB中的内容XBCBC。此外,在越南语中,当BC中的B发生分解时,常常会出现中心词的转变。如:“?ng Tr??ng thi?ch c? Ly? sinh ?e?p(张先生喜欢貌美的李小姐)”与“?ng Tr??ng thi?ch ca?i khi? ch??t cu?a c? Ly? sinh ?e?p(张先生喜欢貌美的李小姐的气质)”,后句相比于前句,发生了XBCB的分解。正是由于越南语定语后置“前正后偏”的语言特点,其中心语由原来的“c? Ly?(李小姐)”转变成了“ca?i khi? ch??t(气质)”。不过,在HNC中,语义块的核心内容还是“c? Ly?”。 第一类与第二类虽然都是语义块内部结构的循环模式,但在根本上有很大不同。第一类侧重于说明部分的嵌套迭代,第二类是语义块分解的特殊情况。这两类都能说明语言的层次性与非线性特点,HNC对它们的理解也更加直观与全面。
(三)含句蜕现象的名词性语义块
在越南语中,常存在“N+V+N”的歧义现象,该词性组合序列既可以表示一句话,也可以是一个短语,其中,“V+N”作定语修饰前面的中心词。在传统语法中,往往将“V+N”结构作定语的情况,解释为省略介词“ma?”的特殊形式。这类“句子型”的名词性语义块结构复杂,在HNC理论中,则将它解释为语义块的句蜕现象。可以说,正是由于越南语定语后置的特殊性,使得本是要素句蜕的表达同原型句蜕的完全相同。如:“các ho?t_??ng tr?_giúp ng??i tàn_t?t(帮助残疾人的各项活动)”,该句子是“各项活动帮助残疾人”的JK要素句蜕,正是由于越南语定语后置的特点,导致这两句话译成越南语时句子完全一样。计算机在处理这类歧义现象时,很难弄清楚该类表达到底是表主谓宾的句子成分还是短语成分,而HNC就给出了消解歧义的方法,即通过对句类中语义块的切分进而做出有效判断。在越南语中,除了语义块全部成分的句蜕,还存在语义块内部部分结构的句蜕。如:“nhi?m v? ki?m_tra,??n ??c các B?,ngành,??a_ph??ng(检查督促各部、各界、各地方的任务)”,它与上个例子在句法结构上完全相同,但上个例子中的“各项活动”可充当句子的主语,也就是JK1;而此例中,“nhi?m v?(任务)”后面的动词短语(动宾结构)作定语。从语义限制的角度来看,“nhi?m v?(任务)”就不能作“ki?m_tra , ??n ??c(检查、督促)”等特征语义块的JK1成分,该类动词的主语应当由pp类(HNC概念节点中的“人”)概念来充当。在此例中,可以理解为“ki?m_tra,??n ??c các B?,ngành,??a_ph??ng(检查督促各部、各界、各地方)”语义块的说明部分所产生的省略主语形式(!3)格式句蜕。总的来看,第三类中含句蜕现象的情况包含了整个语义块句蜕与部分成分句蜕两种情况。
(四)含“cu?a”的名词性语义块核心成分区分
“cu?a”结构在越南语中的重要程度如同汉语中的“的”字结构,通常用来表示领属,该结构在名词短语中使用非常频繁,同时它也是形成越南语定语复杂性的重要原因。一般来说,领属范畴包含了范围领属(如“B??c Kinh cu?a Trung Qu??c”中国的北京)、处所范畴(“s?n v??n ???ng cu?a ho?c viê?n”學校的运动场)、领有范畴(“cu??n sa?ch cu?a t?i”我的书)、亲属范畴(“me? cu?a chi? ??y”她的妈妈)、附属领属(“m??t cu?a anh ??y”他的眼睛)、整体部分领属(“tu?i cu?a a?o”衣服的口袋)、本体属性领属(“ca?i khi? ch??t cu?a chi? ??y”她的气质)、本体特征领属(“di?ch bê?nh cu?a con cho?”狗的病)(沈阳,1995)。在HNC中,“cu?a”结构既可以用来表示C(内容),也可以用来表示B(对象)与C(内容)的融合。当表示后者时,名词性语义块的核心成分往往与短语结构语法所定义的中心成分有所差别。如上文提到的“?ng Tr??ng thi?ch em ga?i cu?a c? Ly?(张先生喜欢李小姐的妹妹)”与“?ng Tr??ng thi?ch ca?i khi? ch??t cu?a c? Ly?(张先生喜欢李小姐的气质)”,“em ga?i cu?a c? Ly?(李小姐的妹妹)”与“ca?i khi? ch??t cu?a c? Ly?(李小姐的气质)”短语结构虽然相同,但前者的核心成分是cu?a 之前的“em ga?i(妹妹)”,而后者语义块的核心成分是“c? Ly?(李小姐)”,处于cu?a结构之后。从越南语含“cu?a”名词性语义块的领属性关系来看,表示本体特征属性的“cu?a”字结构核心成分通常位于后面,其他类型领属关系核心成分位于“cu?a”字之前。因此,“cu?a”字结构到底偏重于前部还是后部,HNC理论可以通过对概念层面的合理解析,得到语义块的核心成分,有利于机器在处理复杂长难句时,对句子主干的正确把握。
(五)名词短语中介词修饰成分辅语义块化
除了第四类中“cu?a”字结构作复杂定语之外,越南语中还存在着诸多介词短语做定语的情况,如引出内容的“vê?……”结构、表示时间空间的“trong/va?o……”结构、表示目的的“?ê?/nh??m……”结构、表示结果的“cho……”结构等。句子除了由主语义块构成外,还存在具有辅助性意义的辅语义块成分,用以表示手段、工具、途径、比照、条件、起因、目的等,对应于一般而言的介词短语。因此,短语结构中的介词短语做后置定语的情况,在HNC中则可被视作是辅语义块的表示形式。例如:
(1)Ch?_th? v? t?ng_c??ng c?ng_tác qu?n_l?,ch?_??o nh?m thúc_??y s? ra_??i,phát_tri?n c?a các b?o_tàng và s?u_t?p t?_nh?n.(有关加强管理与指导工作的指示,旨在促进宝藏与私人藏品的诞生与发展。)
(2)L??i di chu?c vê? viê?c riêng.(个人遗嘱)
(3)B??u kh?ng khi? gia ?i?nh ?oa?n tu? êm ?ê?m trên ki?nh d???i nh???ng tr???c nh??ng ba?n th?? ph??t.(供桌前洋溢着敬上爱下温馨和谐的家庭团聚气氛) 上述用例都是结构复杂的名词性语义块,其中,包含了“vê?”内容说明、“nh?m”目的限制、“c?a”领属成分等介词短语充当定语的情况。根据越南语语法书(Nguy?n Tài C?n,1997)的看法,这些语义块是整体作为一个名词短语,但根据HNC理论的观点,“vê?”“nh?m”等介詞结构是句子的辅语义块,由此来降低语义块内部的构成复杂性。计算机可以通过“分而治之”的方法,先采取将辅语块去除的方式,找出语义块边界;再根据辅语义块的限定对象,对语义块甚至是句类做进一步分析,以此来降低语义块分析解剖的难度。
综上所述,笔者根据越南语语言特点、名词短语结构以及HNC理论,对越南语名词性语义块进行了分类研究。从本文的论述可以看出,对结构复杂的名词短语而言,HNC理论在分析语义块时更为清晰,便于机器的理解,同时也为自然语言处理后续更高层次任务的开展奠定了基础。HNC理论在汉语中已经形式化,并产生了很多成功应用的案例,但不同语言之间会存在一定的差异性,如何针对不同语言的特点,使HNC理论得到更为切实、更为有效的应用,则是今后将面临的关键问题。由于HNC理论是一个关于自然语言理解处理的理论体系,是一套形式化的符号基元系统,而真正做到让计算机处理、理解语言是具体的工程性问题,如何将理论落地,在技术应用层面实现语言智能,也是一项十分艰辛的任务。具体到本文讨论的问题而言,就是在HNC理论指导下,如何找到语义块边界并将相关句类界定清楚。语言现象再复杂多变也总归是有规律可循的,HNC为我们提供了从概念空间层面理解语言的思路,我们也希望这一理论在今后会有更大的发展与突破。
参考文献:
[1]Nguy?n Tài C?n. Ng? pháp ti?ng Vi?t[M].Ti?ng-T? ghép-?o?n ng?,NXB ?H và THCN,1997.
[2]Cheng,L.& R.Sybesma.Bare and not-so-bare nouns and the structure of NP[J].Linguistic Inquiry,1999,(4).
[3]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,南宁:广西科学技术出版社,2000.
[4]钱小飞,侯敏.汉语最长名词短语的结构复杂性研究[J].语料库语言学,2017,(1).
[5]张孝荣.名词短语的内部结构及其句法实现[J].安徽师范大学学报(人文社会科学版),2010,(4).
[6]周君.也谈英汉名词短语的句法层级结构[J].外国语(上海外国语大学学报),2014,(5).
[7]肖红.越南语名词短语的内部结构[D].湖南大学硕士学位论文,2005.
[8]李亚非.也谈汉语名词短语的内部结构[J].中国语文, 2015,(2).
[9]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出版社,2005.
[10]林丽.面向信息处理的越南语主谓谓语句句式转换研究[J].解放军外国语学院学报,2013,(5).
[11]谭志词,徐方宇,林丽.基础越南语(3)[M].北京:世界图书出版公司,2013.
[12]沈阳.领属范畴及领属性名词短语的句法作用[J].北京大学学报(哲学社会科学版),1995,(5).