汉语文本中的隐喻计算研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：blaze1982

【摘要】

：

自然语言中存在大量的非字面意义的表达，如隐喻、转喻等，这些表达的真正含义无法从字面上直接获得，有时其字面义是讲不通的。这给自然语言理解提出了挑战，成为自然语言理解必须攻

【作者】

：

贾玉祥

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自然语言中存在大量的非字面意义的表达，如隐喻、转喻等，这些表达的真正含义无法从字面上直接获得，有时其字面义是讲不通的。这给自然语言理解提出了挑战，成为自然语言理解必须攻克的堡垒，其中最主要的是隐喻。隐喻是通过一个事物来表达另外一个事物，体现着一种类比的认知或思维方式，长期以来是多学科研究的课题，包括语言学、修辞学、认知学、心理学、哲学等。因此，隐喻计算的研究一方面可以服务于自然语言处理，另一方面也具有多学科的意义。然而，由于从计算机科学的角度开展的隐喻研究还相对较少，本文工作具有很强的探索性。　　文章首先综述了隐喻计算研究的进展，重点探讨了隐喻计算研究的新成果。近几年来，在自然语言处理研究的大背景下，隐喻计算方面涌现出了很多新的工作，尤其在隐喻识别方面，机器学习方法和大规模知识获取成了新的亮点，隐喻理解和生成方面也有新的成果。　　本文研究汉语文本中的隐喻计算问题，从最主要的几种隐喻类型入手，探讨隐喻的识别、理解和生成方法，并尝试将隐喻计算应用于自然语言处理其他任务。主要内容如下：　　 1、隐喻识别。针对名词性隐喻和动词性隐喻这两类主要的隐喻类型，分别提出基于词典的名词性隐喻识别方法和基于知识获取的动词性隐喻识别方法。机器学习方法为识别不同类型的隐喻提供了一个统一的框架，考察了机器学习方法在识别不同类型隐喻时的特点和效果。　　基于词典的名词性隐喻识别。综合利用词典中的语义距离和语义关系知识来识别名词性隐喻，考察隐喻与语义距离和语义关系之间的关联。并把该方法用于新奇隐喻和常规隐喻的区分。　　基于知识获取的动词性隐喻识别。利用大规模语料结合语义词典自动获取动词主语及宾语的优选语义类，过滤掉抽象语义类，得到字面语义类，基于字面语义类进行动词性隐喻的识别。　　隐喻识别的机器学习方法。利用支持向量机方法识别名词性隐喻、动词性隐喻及“像”的隐喻用法，考察了真实语料中的隐喻分布情况，比较了不同类型隐喻的识别效果。　　 2、隐喻理解与生成。对于名词件隐喻中的“X县Y”类型，提出基于显著特征的隐喻理解与生成方法。利用搜索引擎从大规模网页中自动获取名词的显著特征知识，构建显著特征知识库，作为隐喻理解与生成的数据基础。并探讨了显著特征获取的统计方法。　　 3、隐喻计算的应用。探讨了隐喻与自然语言处理任务情感分析之间的关系，尝试将隐喻计算用于情感分析。首先探讨了以情感方面的概念为目标域的情感隐喻。然后考察了普通隐喻表达所传递的情感倾向。最后，提出读者情感分类问题，即预测读者读完文本后会产生怎样的情感。从Web上自动获取大规模情感数据，考察不同情感的分布及关联，利用机器学习方法进行自动情感分类。　　本文方法主要是基于知识获取和机器学习，避免了手工知识库和规则方法的不足。本文工作也积累了一些语言数据资源，可以为隐喻计算、隐喻本体研究及其它相关研究提供支持。

其他文献

数字集成电路硅后调试技术研究

随着集成电路设计复杂度的不断增加，设计错误的数量也在呈上升趋势。由于速度及模型正确性的约束，硅前验证已经不能保证没有设计错误遗留到硅后阶段。而且随着工艺的发展，硅片中

学位

数字集成电路硅后调试怀疑窗追踪扫描模型正确性多核芯片

共享式数据中心面向动态资源调度的性能分析技术研究

共享式数据中心利用虚拟化技术在满足各个应用对资源动态需求的同时也提高了资源的利用率，解决了数据中心由于资源浪费带来的一系列问题。服务部署系统利用资源模块化和资源的

学位

共享数据中心动态资源调度性能分析大范围变动虚拟化短相关负载

基于云平台可信根关键技术的研究

云计算是继并行计算、网格计算和分布式计算后的又一新式的商业计算模型。它展示出五种新颖特征:快速弹性伸缩、资源池、按需自助获取服务、广泛的网络接入、可度量服务,这些

学位

可信根服务器可信云计算中心架构可信引导云计算云安全

一种面向网页木马的主机入侵检测技术研究与实现

随着互联网的不断发展,网页木马这一新形态的恶意代码已经成为互联网上最主要的安全威胁之一。由于其具有被动传播、可利用浏览器提供的客户端执行能力等有别于传统恶意代码

学位

面向网页木马入侵检测恶意代码网络安全COM组件交互式蜜罐

科学计算网格软件SCE的性能测试和优化

科学计算网格(ScGrid)的开发源于建设“中国科学院超级计算环境建设与应用”，希望建立一个能够把各学科计算应用集成到统一的网格环境，推动超级计算应用水平的提高，为科研信息化

学位

科学计算网格数据库负载测试压力测试并发测试

英文短文本相似性研究及在图书推荐中的应用

随着互联网的飞速发展,顾客和商家对电子商务推荐系统的需求日益强烈。然而当前的电子商务推荐系统大多是采用以用户为基础进行构建的。同时,由于系统建立之初,顾客对系统的

学位

推荐系统领域术语短文本相似性

多概率联合控制随机多址接入无线传感器网络MAC协议分析

无线传感器网络(Wireless Sensor Network,WSN)是由众多集传感能力、计算能力和通信能力于一体的资源受限(计算、存储能力和能源等方面受限)的嵌入式节点通过无线通信方式互

学位

无线传感器网络随机多址多通道多概率联合控制

基于统计学习的肽鉴定方法研究

蛋白质鉴定是蛋白质组学研究的基础问题之一。串联质谱技术和数据库搜索已成为自底向上蛋白质鉴定策略的常规技术手段。为了鉴定蛋白质序列，首先需要鉴定由蛋白质酶切产生的肽

学位

计算蛋白质组学统计学习肽序列鉴定串联质谱数据库搜索

高光谱图像混合像元分类技术研究

高光谱遥感在国内外的遥感领域的发展中占有重要的地位。高光谱遥感是指具有高光谱分辨率的遥感科学与技术，其依赖的基础是测普学(spectroscopy)，由于其具有很高的光谱分辨率，因

学位

企业固定资产MIS系统的研究与实现

在现代化的企业管理中,固定资产管理是一个重要组成部分。对于大中型企业,固定资产的管理难度很大。开发企业固定资产管理系统,替代了很多企业仍使用手工管理的方式,有效解决

学位

固定资产管理ASP.NET角色划分MVC

汉语文本中的隐喻计算研究

与本文相关的学术论文