论文部分内容阅读
语言是人类特有的文化现象,经历着生生不息的变迁过程。语言变迁的历史是人类历经的兴衰史。而语言变迁的一个重要现象就是词汇的语义变化(简称词义变迁),这也是本文的研究重点。词义变迁一直是语言学中的一个重要课题,在传统的语言学方向取得了显著的成就。但是传统的“田野工作”只能进行定性地分析,需要精确地进行数据收集,耗费大量人工。而定量的研究上并没有成熟的研究思路,往往只使用一些简单的统计量,如词频、上下文相关度等等来进行语义变迁的度量,结果很难具有说服性。因此需要提供一个统计学意义上的研究方法,对词义变迁现象做出深入的挖掘,给语言学家及计算语言学的各个领域提供参考。基于历时语料库的研究方法一直是一种重要的研究手段,不仅能精确快捷地进行语言运算,也由于其符合语言学原则而被语言学家们接受。本文的研究就选择在历时语料库上进行,研究结果表明,本文提出的方法具有通用性,能适用于不同的语料库。 本文在此基础上提出了一种全新的词汇语义度量方式,首先通过词向量模型对历时语料库中的不同时间段建立词义空间,然后采用空间映射的方法把不同时间段的词向量映射到同一个目标空间中,得到一个词在目标空间中的词义分布。我们假定该分布是词向量空间中的一个多维高斯分布,该分布是词语在历时语料库中的词义表达。经过实验表明,该分布可以刻画词语潜在的话题特征,反应词语受某个或者某几个时代热点话题的影响而发生语义波动的现象。利用这种词义分布还可以构建出词语的话题层次聚类树,经LDA模型验证,这种聚类效果符合话题的分布,能够找出特定的话题类。同时,提出了词汇语义变迁的研究框架,通过对空间变换的训练集算法的设计,找到了语言学中的“基本词汇”;通过对误差函数值的分析发现了语义变迁程度与时间的关系,证明了该框架的合理性。然后进一步提出了词汇的语义是由“理性义”和“话题义”构成。理性义相对稳固,而话题义容易受到周围社会环境变换的影响。通过实验证明词语的语义确实包含这两方面,而且两种意义相辅相成,得到的统计结果经分析表明符合语言学中的词义变迁规律。本文中涉及到的词义分布定义方法及词义变迁研究框架,不仅能用来有效地研究词义变迁,还能为计算语言学的其他领域提供参考,如词类研究、新词发现、词语相似度度量、热点话题挖掘等。