论文部分内容阅读
隐喻是用来描述和理解抽象概念的主要手段,它不但是一种语言现象,也是一种认知方式。隐喻普遍存在于人类语言中,每三句话中就可能出现一次隐喻表达。近年来,随着推特、微博、论坛等社交媒体的迅速崛起,隐喻文本出现在更加多元化的平台上,得到了更广泛的关注。因此,人们迫切需要自然语言处理海量的隐喻信息。隐喻识别研究旨在赋予计算机像人类一样分析隐喻的能力,是一项富有挑战的研究课题。针对目前国内外隐喻研究中语义资源稀缺、语义信息利用不足、应用研究缺乏等问题,本文在构建隐喻语料库的基础上,展开隐喻识别研究,并探索隐喻识别在不同场景中的应用模式和范例,即从“资源建设”到“识别”,再到“应用”的研究框架。主要研究成果如下:(1)在隐喻语义资源建设方面,设计了基于认知语言学理论的标注框架以及有效、规范、合理的质量监控体系;构建了大规模的中文隐喻语料库。提出了基于标注者画像的隐喻标注个性化方法,依据标注者的个性化特征和标注历史数据分配标注任务,同时采取“小众任务优先分配”策略,以保证“小众”任务的标注质量。实验结果表明所提出的标注方法可以有效地提高隐喻标注质量,为隐喻识别提供必要的语义资源。(2)在隐喻识别方面,提出了基于BERT与Transformer模型的名词隐喻识别方法,使用BERT模型替代词向量,在语义表示中同时包含词与词之间的位置关系等信息,利用Transformer模型进行特征提取并通过神经网络分类器进行识别。此外,提出了基于同义词林和注意力网络的动词隐喻识别方法,首先改进词向量,使其融合同义词词林的语义信息,包含词语抽象度等信息。构建了一种基于主谓宾句子结构信息的动词隐喻Attention网络,使得LSTM充分考虑到全局结构信息。实验结果表明所提出的隐喻识别方法超过了现有基于人工特征的分类模型及主流深度学习模型。(3)在隐喻应用研究方面,提出了基于隐喻的创造力与心理健康评估模型。首先,在隐喻识别的基础上,融合情感等特征,评估学生作文的创新性,在此基础上的写作自动评估系统可以更全面、更深入地评估写作质量,进而提高写作评估系统的有效性。其次,在识别出隐喻句的基础上,结合上下文特征和大学生心理测评报告结果,构建大学生心理健康问题预测模型,进而完成基于隐喻的大学生心理健康评估。实验结果表明所提出的方法能够有效地进行创造力和心理健康评估,本文对基于隐喻特征的写作自动评价和心理健康状态评测进行了有益地尝试。