论文部分内容阅读
词汇语义分析在自然语言处理中具有重要位置,已有的大多数词汇语义理论和分析技术中对语义的表示都建立在词汇关系的基础上,简单地说,就是用一组词来解释另一组词。这种方式在机器翻译,问答系统等很多领域中都得到了应用,但是在另一些应用中显得无能为力。比如,为图像生成语言描述,涉及实际情境对象的人机交互等。其主要问题就在于,语言没有和实际感知相关联。为连接语言和感知所出现的一个新的研究趋势是模仿人类的语言习得机制,构建基于各种感知信息的语言习得和计算模型。其中尤以视觉认知和语言认知在习得过程中的互动关系受到广泛关注。这一任务可称之为“基于视觉信息的语言习得”(vision grounded language acquisition)。该类研究将原有的基于语言表示语言意义的单一模态扩展到基于视觉信息进行语言意义表示,从而把语言概念和感知信息进行关联,实现基于实际情境对象的人机交互。另一方面,随着计算机技术和互联网的迅猛发展,各类文档、图像、视频等多媒体信息的增长十分迅猛,利用计算机来处理这些海量式的非结构信息的需求也变得越来越迫切。在这样一个背景下,本文主要针对视觉信息与语言信息的关联过程,表征方式与习得方法展开研究,主要的工作及创新包括以下几个方面:1.静态词类的视觉特征与语言词汇的关联研究名词,形容词作为在人类语言习得过程中首先被习得的词汇,具有直接指代外部世界实体感知特征的性质,其视觉信息可由静态的图像所包涵,因此可被认为属于静态词类。本文对静态词类的语义习得研究,主要通过构建计算模型ViMac,实现图像的视觉特征和描述词汇之间的自动关联。ViMac的习得可分为四步:双通道信息的预处理,基于Hellinger距离的语义关联度矢量计算,基于混合度量的词聚类,基于多维Hellinger距离的视觉特征选择。通过上述四个模块实现视觉特征和语言词汇由底层到高层的对应。在上述模块中,对视觉特征分布距离的度量选择是影响学习效果的关键。为此我们比较了Kullback-Liebler距离和Hellinger距离的单维和多维形式在语义关联度矢量计算以及视觉特征选择中的不同效果。实验结果证明,Helliner距离可以显著的改善静态词类的视觉特征与词汇关联的结果。2.静态词类视觉语义表征方案与语言输出算法的研究静态词汇与视觉特征直接关联后,词汇语义在视觉空间中可有不同的表征形式。当ViMac对图像生成语言描述时,这些视觉语义表征形式对输出算法和输出性能有着不同程度的影响。基于此,本文提出并研究了针对静态词类的三种视觉语义表征方案:分别是基于高斯模型的视觉语义表征,基于K近邻算法的视觉语义表征和基于核心成分的视觉语义表征。其中,基于核心成分的视觉语义表征借鉴了人类表征语义时的使用语义中心与边缘的特性,基于此设计了复合词生成算法。该算法可生成训练数据中未学习到的复合词,从而在评测时对新的视觉场景也可生成相应的语言描述,克服训练语料稀疏性。输出语句的自动评测采用BLEU技术,对基于三种语义表征的语言输出算法的进行对比表明,复合词算法能够生成在预定义词集中未能习得的新词,克服训练语料在标注中存在的主观差异性,提高输出算法的计算效率,因此在整体性能上优于其他两种算法。同时,对复合词算法本身的实验研究也揭示了人类在核心词与复合词使用上的不同规律。3.动态词类的视觉语义表征研究动词作为人类语言习得过程中后习得的词汇,具有一定的复杂性,其意义的解释需要名词、副词等基础词的参与。其语义多指代一个动作事件,可包涵于动态的视频中,因此我们将其归属于动态词类。针对动词的这些特性,本文首先从语言学上基于框架语言学规定动词语义表达的结构,包含框架和论元两部分。其中框架是用来组织情境知识的认知结构,而论元则被框架支配来实现对具体情境的描述。基于该动词语义定义构建基于视频信息的动词语义习得模型ViMac-V。 ViMac-V的视觉通道信息和语言通道信息均要复杂于静态词类习得模型ViMac,尤其是在对语言通道信息的框架和论元提取工作上。ViMac-V首先采用视觉特征与词共现的方法进行分类基础词的选择,再基于词性与最小编辑距离的词度量进行论元词类的划分。在得到各组论元词类的基础上,利用二元语法模型进行动词框架的提取。实验证明了ViMac-V对框架和论元成分提取的有效性,共习得有关7个动词的5组框架和4组论元词类(62个论元词汇)。4.动态词类语义表征与视频信息的关联研究在ViMac-V中,动词语义与视频信息的关联主要通过构建自组织神经网络组来实现。其中,基于学习矢量量化的框架激活机制将视频所凸显的认知视角与动词框架相关联;而对论元词汇则通过SOM网络训练,神经元聚类和语言概念习得将其在视觉空间中实现范畴化。范畴化后的SOM网络连接了高维视频特征分布和论元词汇,再通过框架支配各个SOM子网络联结为不同的形式,组成不同的动词视觉语义。完成的ViMac-V模型被部署在MT-AR型机器人平台上。采用摄像头和语音输出来扩展ViMac-V的视觉和语言感知能力。同时还设计了基于框架与论元共现率的动词输出选择算法,用来生成更贴近视频场景的自然语言描述。在对真实动态场景的描述语言输出实验结果表明,ViMac-V所习得的动词语义表征可以对真实场景下的小球运动事件生成正确的自然语言描述。