论文部分内容阅读
词义归纳利用聚类技术自动从未标注语料中获取多义词的词义,从而大大提高语言工作者的工作效率。因此,词义归纳成为当今计算语言研究中一个最重要的课题。本文基于CLP2010提供的词义归纳语料,从特征向量的方法、图的方法和词义归纳集成三个方面对中文词义归纳进行了研究,探讨适合中文词义归纳的方法。具体内容如下:(1)基于特征向量的中文词义归纳。本文着重探讨了特征选择、算法等对系统性能的影响。选用词语、单个汉字、汉字二元组等作为特征,单个汉字特征能够有效改善中文词义归纳的结果,汉字二元组对分词中的错误有一定的纠正功能,对于单字词的多义词性能影响较大,而对多字词的影响较小。聚类算法中性能较好的是K-means和Rb算法。本实验系统F-score值为79.34%,与CLP2010的参赛系统比较,排名第一,特别在单字词的多义词中,结果为69.50%,远远超过大部分参赛系统。(2)基于共现图的中文词义归纳。图方法性能较好,但更适用于较大规模语料。因此,本章使用4年人民日报语料对CLP2010语料进行扩充,使用扩展的语料来描述源语料中各个节点的分布。使用权重阈值对节点进行过滤能够有效地改善系统性能,Part_Purity提高了大概20个百分点,此时所有多义词的词义数分布与标准分布更为相近。添加搭配作为节点,保证90.46%的Part_Purity同时,有效多义词数和平均有效实例数分别增加为93和27,优于无搭配的88和25。对比基于源语料和扩展语料的结果,扩展语料能够构建更为合理的图结构,其Part_Purity高出8个百分点。(3)词义归纳方法集成。本文使用二次聚类、投票以及迭代获取最优聚类结果三种方法进行集成。选用特征向量方法中两个较优和较差的系统作为基础系统,其中最优和最差的F-score值分别为79.34%,68.68%,而上述三种集成方法分别获得了79.28%,78.52%和79.05%的F-score值,这些集成方法对于性能的改善并不明显,但是具有较好的稳定性,能够有效地避免较差系统的影响。