论文部分内容阅读
针对当前词语相似度计算方法存在的局限性:基于语义词典的词语相似度计算方法依赖字典进行相似度计算,因此无法对字典未登录词语进行计算;基于语料库的词语相似度计算方法在计算低频词语的相似度时,由于低频词语上下文信息量太少,使得词向量不能较好地表示词语语义,导致其相似度计算无效。本文进行了如下的研究:
首先,本文利用大规模的真实语料对中文词语的分布规律进行了研究,掌握了中文词语的分布规律,并且建立了一个基于真实语料的实验数据集。该部分工作为后文有针对性地设计相似度算法和客观地评估相似度计算性能做好了充分而必要的准备。
其次,本文提出一种利用背景语料和词典的未登录词语相似度计算方法,该方法利用未登录词语的背景语料确定未登录词语在语料库中的最佳概念表达,然后为其最佳概念表达构造语境,通过比较未登录词语的最佳概念表达的语境和其本身的语境之间的差异来判断该最佳概念表达能否表达未登录词语的涵义,最后利用字典进行相似度计算。该方法有效地解决了传统的采用切分方法的未登录词语相似度计算方法中存在的错误切分和滥切分的问题。实验证明该方法是有效的。
最后,在上文研究的基础上,本文提出了一种中文词语的相似度计算的框架。该框架采用组合策略,利用背景语料、语义词典和基于Internet的构造语料进行词语相似度计算,它包括四个步骤:(1)若待处理词语a、b均为语义字典的登录词语,则直接利用语义字典进行相似度计算;(2)若a、b中存在为语义字典的未登录词语,但未登录词语均可切分为语义字典的登录词语的组合,且其概念可由其登录词语的概念组合来表示,则将词语a、b的相似度转化为其概念组合的相似度来进行计算;(3)否则,分别以词语a,词语b,词语a和b作为查询,利用它们在Internet中的搜索结果为词语a和b构造一个上下文语料,然后采用基于词语上下文的方法进行相似度计算。为保证三种异源相似度计算结果具有可比性,文中提出了一种利用同义词阈值对异源相似度计算结果进行整合的方法。实验结果表明该方法能较好的解决中文词语的相似度计算问题。