论文部分内容阅读
词性标注是自然语言处理中一个具有重要意义的研究方向,涉及的应用领域非常广泛,在信息处理范畴内起着重要的基础性作用,词性标注的效果直接影响着基于标注结果的各种信息处理的准确度,诸如语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等。词性标注的实现过程中存在着一些难度,如兼类词歧义处理、未登录词处理,以及专有名词的处理等。由于汉语本身的特点以及汉语言学研究现状的限制,汉语词性标注就更加困难和复杂。词性标注的方法有很多,大体上可以归为两类,基于规则的方法和统计的方法,而基于隐马尔可夫模型(HMM)的词性标注正是统计方法的典型例子。虽然HMM在词性标注中的应用已经非常成熟,但如何提高兼类词、未登录词的标注准确率依旧是基于HMM的词性标注研究的重点。本文在标记好的汉语语料库《人民日报(1998年1月)》的基础上,建立二阶隐马尔可夫模型(HMM2),改进针对未登录词的标注,对模型进行训练、测试、评估,从而实现了汉语词性标注。具体如下:(1)由于语料库的选取在词性标注效果中起着重要的影响作用,在测试前对语料库进行了预处理,去除了二级标注和专有名词标记符号(保留专有名词及其词性标注),来提高实验的准确率。(2)一般的HMM在进行词性标注时仅仅依靠前一个词的词性来估计当前词汇的词性,基于语言学知识的考虑,这种方法对上下文语义信息的提取上不够详尽。于是提出了建立HMM2的思想,来增加对上下文语义信息的利用,进而提高词性标注效果的准确度。在建立HMM2时,对训练数据得到的状态转移概率进行了平滑处理;同时,根据测试中实际情况,修正了观测概率的获取方法;并对未登录词进行了处理,以便进一步保证实验的准确率(3)在测试中,传统的Viterbi算法已不能适应改进后的HMM2,于是对Viterbi算法进行了改进和拓展,使其符合修改后的HMM2的需要。经过对一万词汇分别在26个标注集和39个标注集的训练语料下进行开放测试,证明本文改进后的HMM2比一般的HMM、HMM2标注效果好。本文最后对词性标注发展前景进行了展望。