论文部分内容阅读
词作为语言的基础,具有相对的稳定性。但是语言是不断往前发展的,作为语言的一种成分,词又具备着语言的发展变化性。随着互联网的发展,信息成指数级增长。在网络这样特殊的环境下,许多汉语词语的语义发生了显著的变化。如何深入了解网络词义的构成要素,准确全面提炼网络词义的静态特征和动态特征,进而给出集合静态要素和动态要素于一体的网络词义的形式化表示方式,是一项有重大意义且有挑战性的研究工作。在传统的语言学中,词义的演变是一个重要的课题,取得了很多显著的成就。但在语言学上对词义的发展演变只能进行定性的分析,需要精确的进行数据收集,耗费大量的人工。而在定量的研究上,往往使用一些简单的统计量,例如词频,上下文相关度等作为词义变化的度量,结果很难具有说服性。因此本文提出具有统计学意义上的研究方法,对词义变化现象进行深入的发掘,给语言学家及自然语言处理等领域的学者提供参考。本文基于词义的表示方法,改进深度学习中词向量训练模型,得到词的向量化表示。在此基础上,通过词之间的语义关联,实现了基于词向量的语义指纹获取方法。我们以历时的语料库作为训练语料,获取不同时间段词义的语义指纹,通过云模型,获取其数字特征。通过对相似云的相似度计算,我们可以得到词义的变化程度,从而发现词语的语义变化程度。第三章提出一种基于词向量的语义指纹获取方法,该方法使用大规模语料库进行模型训练,可以获取更多的语义关联信息。首先,本文在基于word2vec的基础上,通过在训练过程中加入词性标注信息,给出Pos-CBOW模型,能得到效果更好的词向量。通过词向量之间的相似度计算,获取词义之间的语义关联。将和中心词的相似度大于一定阈值的词作为中心词的语义指纹。提出基于词向量的语义指纹获取方法,能更好的形式化表达词义。第四章在第三章的基础上,通过云模型的定性定量转换理论,获取词义的数字特征。针对历时的语料库训练出来的词义,我们利用相似云的相似度计算公式来计算词义的动态变化程度。本文第三章用2015年新浪新闻,共1G的文本作为训练语料。将wordSimilarity-353和words-240作为测试集。从实验结果可以看出,文中提出的基于词向量的语义指纹方法在斯皮尔曼相关系数和皮尔逊相关系数上有良好的表现。这也间接表明本文方法的可行性。在第四章中,以历时的语料库作为训练语料,通过计算不同时段词义的概念云的相似度,来发现词义是否发生改变。实验结果表明,我们的方法可以有效的计算词义的改变程度。