论文部分内容阅读
[摘要]中文分词是自然语言处理的基础。根据各种分词模型的特性,提出一种双层分词模型。在底层用隐马尔可夫模型(HMM)进行粗分,在高层利用条件随机场(CRF)对文本进行重新标注。从实验结果证明,该模型是有效的。
[关键词]隐马尔可夫模型条件随机场模型双层模型
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1120034-01
一、引言
中文分词是中文信息处理的第一步,它是自然语言处理的一项基础性工作。它的准确程度将会直接影响到后续处理的正确性,如信息检索、信息抽取等[1]。
当前常用的分词方法可以分为基于字符串匹配的分词方法、基于统计的分词方法和基于规则的分词方法。基于字符串匹配的方法在新词识别和消除歧义方面存在明显的不足,而基于规则的方法由于代价太高,并且容易出现规则无法覆盖或者规则冲突,因而很少被单独使用。目前应用得比较成熟的是基于统计的方法。其中隐马尔科夫模型(Hiding Markov Model,HMM)由于存在独立假设,使得它的分词准确性不如最大熵隐马模型(Maximum Entropy Markov Models,MEMM)以及条件随机场模型(Cond
itional Random Fields,CRF),本文采用HMM进行粗分,然后CRF进行细分的双层模型来进行分词,很好的结合了各自的特点,达到了不错的效果[2,3]。
二、条件随机场模型(CRF)
John D.Lafferty等将CRF模型用在序列标注的问题上。其核心思想是利用无向图理论是序列标注的结果达到整个序列上的全局最优[4-6]。
(一)CRF模型的建立
CRF是无向图模型的一种形式,在给定将要标记的观测序列的情况下,无向图模型可以被用来在标记序列上定义一个联合概率分布。对于观察值序列X和状态序列Y,可以定义一个线性的CRF模型,形式为式(2.1):
其中,Z(X)是归一化因子。
(二)CRF模型的序列标记任务
现在我们用CRF建立了 的统计模型,求解序列标记任务就是求得 ,使之满足 最大,由于 与无关,使用Viterbi等动态优化方法,可以求出最优解 。
(三)汉字标注集的选择
通过实验分析,六字位的标注方式效果最好,故本文中实验采用六字位的汉字标注方式:“S”、“B”、“B2”、“B3”、“M”和“E”。其中“S”、“B”和“E”的含义与(2)相同,“B2”表示汉字出现在词的第二个位置,“B3”表示汉字出现在词的第三个位置,“M”表示汉字出现在词中间的其他位置。
三、基于HMM和CRF的双层分词模型
(一)基于HMM的粗分
取得原始语料并进行预处理后,在底层采用隐马尔可夫模型(HMM)对语料进行粗分,其具体算法描述如下:
1.对训练语料进行学习,估计出HMM(S,K,,A,B)的各个参数。
2.对于每个观察序列,采用Viterbi算法找到产生该观察序列的最大可能路径。
3.沿着该最大路径对观察序列进行标记。
HMM粗分完成后,将结果作为输入进入到下一层模型处理中。
四、分词实验
(一)实验评测标准
评价汉语自动分词的性能主要有如下三个指标:P,R,F值。其中P指的是分词的准确率;R指的是分词的召回率;F值指的是P和R的综合值。P=正确的切分结果数/所有的切分结果数,=正确的切分结果数/标准答案中的切分结果数。
其中,表示确定准确率和召回率权重的因子。
(二)实验结果
一共设计了三个实验,第一个实验采用单独的HMM进行分词标注,第二个实验采用单独的CRF进行分词,第三个实验采用本文提出的基于HMM和CRF的双层模型进行分词。采用的CRF工具为CRF++0.53版本,实验的结果如表1所示。
从实验的结果可以看出本文提出的双层模型在三个评价值上比单独应用HMM或者CRF都有所提高,证明本文提出的模型是有效的。
五、总结
本文提出了一个基于HMM和CRF的双层分词模型,下层采用HMM进行粗分,在上层使用CRF进行标注,达到了较好的效果。下一步的实验方向就是用HMM进行粗分后,对结果进行一定的纠错和处理,再传入上层进行CRF标注,还可以进增加一些有效的特征,以提高整个模型的精度。
参考文献:
[1]陈立为、袁琦,中文信息处理应用平台工程[M].北京:电子工业出版社,1995.
[2]Hinrich著,李庆中等译,统计自然语言处理基础[M].北京:电子工业出版社,2005.
[3]刘群、张华平、俞鸿魁,基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.
[关键词]隐马尔可夫模型条件随机场模型双层模型
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1120034-01
一、引言
中文分词是中文信息处理的第一步,它是自然语言处理的一项基础性工作。它的准确程度将会直接影响到后续处理的正确性,如信息检索、信息抽取等[1]。
当前常用的分词方法可以分为基于字符串匹配的分词方法、基于统计的分词方法和基于规则的分词方法。基于字符串匹配的方法在新词识别和消除歧义方面存在明显的不足,而基于规则的方法由于代价太高,并且容易出现规则无法覆盖或者规则冲突,因而很少被单独使用。目前应用得比较成熟的是基于统计的方法。其中隐马尔科夫模型(Hiding Markov Model,HMM)由于存在独立假设,使得它的分词准确性不如最大熵隐马模型(Maximum Entropy Markov Models,MEMM)以及条件随机场模型(Cond
itional Random Fields,CRF),本文采用HMM进行粗分,然后CRF进行细分的双层模型来进行分词,很好的结合了各自的特点,达到了不错的效果[2,3]。
二、条件随机场模型(CRF)
John D.Lafferty等将CRF模型用在序列标注的问题上。其核心思想是利用无向图理论是序列标注的结果达到整个序列上的全局最优[4-6]。
(一)CRF模型的建立
CRF是无向图模型的一种形式,在给定将要标记的观测序列的情况下,无向图模型可以被用来在标记序列上定义一个联合概率分布。对于观察值序列X和状态序列Y,可以定义一个线性的CRF模型,形式为式(2.1):
其中,Z(X)是归一化因子。
(二)CRF模型的序列标记任务
现在我们用CRF建立了 的统计模型,求解序列标记任务就是求得 ,使之满足 最大,由于 与无关,使用Viterbi等动态优化方法,可以求出最优解 。
(三)汉字标注集的选择
通过实验分析,六字位的标注方式效果最好,故本文中实验采用六字位的汉字标注方式:“S”、“B”、“B2”、“B3”、“M”和“E”。其中“S”、“B”和“E”的含义与(2)相同,“B2”表示汉字出现在词的第二个位置,“B3”表示汉字出现在词的第三个位置,“M”表示汉字出现在词中间的其他位置。
三、基于HMM和CRF的双层分词模型
(一)基于HMM的粗分
取得原始语料并进行预处理后,在底层采用隐马尔可夫模型(HMM)对语料进行粗分,其具体算法描述如下:
1.对训练语料进行学习,估计出HMM(S,K,,A,B)的各个参数。
2.对于每个观察序列,采用Viterbi算法找到产生该观察序列的最大可能路径。
3.沿着该最大路径对观察序列进行标记。
HMM粗分完成后,将结果作为输入进入到下一层模型处理中。
四、分词实验
(一)实验评测标准
评价汉语自动分词的性能主要有如下三个指标:P,R,F值。其中P指的是分词的准确率;R指的是分词的召回率;F值指的是P和R的综合值。P=正确的切分结果数/所有的切分结果数,=正确的切分结果数/标准答案中的切分结果数。
其中,表示确定准确率和召回率权重的因子。
(二)实验结果
一共设计了三个实验,第一个实验采用单独的HMM进行分词标注,第二个实验采用单独的CRF进行分词,第三个实验采用本文提出的基于HMM和CRF的双层模型进行分词。采用的CRF工具为CRF++0.53版本,实验的结果如表1所示。
从实验的结果可以看出本文提出的双层模型在三个评价值上比单独应用HMM或者CRF都有所提高,证明本文提出的模型是有效的。
五、总结
本文提出了一个基于HMM和CRF的双层分词模型,下层采用HMM进行粗分,在上层使用CRF进行标注,达到了较好的效果。下一步的实验方向就是用HMM进行粗分后,对结果进行一定的纠错和处理,再传入上层进行CRF标注,还可以进增加一些有效的特征,以提高整个模型的精度。
参考文献:
[1]陈立为、袁琦,中文信息处理应用平台工程[M].北京:电子工业出版社,1995.
[2]Hinrich著,李庆中等译,统计自然语言处理基础[M].北京:电子工业出版社,2005.
[3]刘群、张华平、俞鸿魁,基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.