论文部分内容阅读
自然语言中存在大量的非字面意义的表达,如隐喻、转喻等,这些表达的真正含义无法从字面上直接获得,有时其字面义是讲不通的。这给自然语言理解提出了挑战,成为自然语言理解必须攻克的堡垒,其中最主要的是隐喻。隐喻是通过一个事物来表达另外一个事物,体现着一种类比的认知或思维方式,长期以来是多学科研究的课题,包括语言学、修辞学、认知学、心理学、哲学等。因此,隐喻计算的研究一方面可以服务于自然语言处理,另一方面也具有多学科的意义。然而,由于从计算机科学的角度开展的隐喻研究还相对较少,本文工作具有很强的探索性。
文章首先综述了隐喻计算研究的进展,重点探讨了隐喻计算研究的新成果。近几年来,在自然语言处理研究的大背景下,隐喻计算方面涌现出了很多新的工作,尤其在隐喻识别方面,机器学习方法和大规模知识获取成了新的亮点,隐喻理解和生成方面也有新的成果。
本文研究汉语文本中的隐喻计算问题,从最主要的几种隐喻类型入手,探讨隐喻的识别、理解和生成方法,并尝试将隐喻计算应用于自然语言处理其他任务。主要内容如下:
1、隐喻识别。针对名词性隐喻和动词性隐喻这两类主要的隐喻类型,分别提出基于词典的名词性隐喻识别方法和基于知识获取的动词性隐喻识别方法。机器学习方法为识别不同类型的隐喻提供了一个统一的框架,考察了机器学习方法在识别不同类型隐喻时的特点和效果。
基于词典的名词性隐喻识别。综合利用词典中的语义距离和语义关系知识来识别名词性隐喻,考察隐喻与语义距离和语义关系之间的关联。并把该方法用于新奇隐喻和常规隐喻的区分。
基于知识获取的动词性隐喻识别。利用大规模语料结合语义词典自动获取动词主语及宾语的优选语义类,过滤掉抽象语义类,得到字面语义类,基于字面语义类进行动词性隐喻的识别。
隐喻识别的机器学习方法。利用支持向量机方法识别名词性隐喻、动词性隐喻及“像”的隐喻用法,考察了真实语料中的隐喻分布情况,比较了不同类型隐喻的识别效果。
2、隐喻理解与生成。对于名词件隐喻中的“X县Y”类型,提出基于显著特征的隐喻理解与生成方法。利用搜索引擎从大规模网页中自动获取名词的显著特征知识,构建显著特征知识库,作为隐喻理解与生成的数据基础。并探讨了显著特征获取的统计方法。
3、隐喻计算的应用。探讨了隐喻与自然语言处理任务情感分析之间的关系,尝试将隐喻计算用于情感分析。首先探讨了以情感方面的概念为目标域的情感隐喻。然后考察了普通隐喻表达所传递的情感倾向。最后,提出读者情感分类问题,即预测读者读完文本后会产生怎样的情感。从Web上自动获取大规模情感数据,考察不同情感的分布及关联,利用机器学习方法进行自动情感分类。
本文方法主要是基于知识获取和机器学习,避免了手工知识库和规则方法的不足。本文工作也积累了一些语言数据资源,可以为隐喻计算、隐喻本体研究及其它相关研究提供支持。