论文部分内容阅读
汉语中许多新生的词语都是短语的缩略形式.对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺.本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和对齐模型等特征进行候选缩略语和源短语的对齐,最后得到一部粗糙的缩略语词典.在实验中,在新词中进行缩略语提取的准确率达到了51.4%,召回率达到了81.7%.