论文部分内容阅读
近年来国内外已经开发不同版本的简繁汉字自动转换系统,基本满足了两岸四地日益频繁的经济文化交流与合作。对于开发较高质量的简繁汉字转换系统,需建立在简繁汉字比较基础之上,但目前简繁汉字差异性研究主要停留在字形和词的层面,还不够系统和全面,缺少从语言整体角度上系统分析简繁汉字的差异性;目前简繁转换系统还存在一些不足,如:对专有名词的转换,主要依靠简繁词库对照表进行,而现有简繁词库的规模还不够大且存在错误词对,由于缺少平行简繁语料,很难从语料中自动获取简繁术语对;对于人名转换问题,准确率还比较低。因此本文针对这些问题进行研究旨在从新的思路来促进简繁转换技术的发展,主要工作包括: 1)本文针对新闻语体语料,分别建立了简繁相同节点数及相同语料规模的词同现网络,并分别对两种网络做了复杂网络特性方面的系统比较。通过实验得出结论有:首先简繁汉语词同现网络都具有小世界和无标度的特性;其次通过对所得到的简繁汉字核心词典进行比较,发现简繁汉字核心词典具有一定通用性,但也存在一些差异,而且繁体汉字书面语还保留了一定的文言文特征;此外,通过对网络中的基元进行统计分析,得出简繁汉字系统在语义方面具有一致性。 2)首先我们借助简繁词向量表示和简繁语言之间的一种线性映射,实现对简繁术语和地名的转换,通过实验表明,该方法可以比较有效的对简繁词进行转换,证明我们的工作可以从语料中抽取简繁术语对,用于扩展和修正现有简繁词库对照表;其次我们利用简繁词转换矩阵与编辑距离加权结合的方法,实现对人名的转换。实验结果表明,我们的方法可以在仅编辑距离转换的基础上,进一步的提高人名转换的准确率。总之,对于简繁词和人名转换问题,我们可以利用词之间的语义信息来提高简繁汉字转换系统的转换质量。