一种基于HMM和CRF的双层分词模型

来源 :硅谷 | 被引量 : 0次 | 上传用户:q525456781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]中文分词是自然语言处理的基础。根据各种分词模型的特性,提出一种双层分词模型。在底层用隐马尔可夫模型(HMM)进行粗分,在高层利用条件随机场(CRF)对文本进行重新标注。从实验结果证明,该模型是有效的。
  [关键词]隐马尔可夫模型条件随机场模型双层模型
  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1120034-01
  
  一、引言
  
  中文分词是中文信息处理的第一步,它是自然语言处理的一项基础性工作。它的准确程度将会直接影响到后续处理的正确性,如信息检索、信息抽取等[1]。
  当前常用的分词方法可以分为基于字符串匹配的分词方法、基于统计的分词方法和基于规则的分词方法。基于字符串匹配的方法在新词识别和消除歧义方面存在明显的不足,而基于规则的方法由于代价太高,并且容易出现规则无法覆盖或者规则冲突,因而很少被单独使用。目前应用得比较成熟的是基于统计的方法。其中隐马尔科夫模型(Hiding Markov Model,HMM)由于存在独立假设,使得它的分词准确性不如最大熵隐马模型(Maximum Entropy Markov Models,MEMM)以及条件随机场模型(Cond
  itional Random Fields,CRF),本文采用HMM进行粗分,然后CRF进行细分的双层模型来进行分词,很好的结合了各自的特点,达到了不错的效果[2,3]。
  
  二、条件随机场模型(CRF)
  
  John D.Lafferty等将CRF模型用在序列标注的问题上。其核心思想是利用无向图理论是序列标注的结果达到整个序列上的全局最优[4-6]。
  
  (一)CRF模型的建立
  CRF是无向图模型的一种形式,在给定将要标记的观测序列的情况下,无向图模型可以被用来在标记序列上定义一个联合概率分布。对于观察值序列X和状态序列Y,可以定义一个线性的CRF模型,形式为式(2.1):
  其中,Z(X)是归一化因子。
  
  (二)CRF模型的序列标记任务
  现在我们用CRF建立了 的统计模型,求解序列标记任务就是求得 ,使之满足 最大,由于 与无关,使用Viterbi等动态优化方法,可以求出最优解 。
  (三)汉字标注集的选择
  通过实验分析,六字位的标注方式效果最好,故本文中实验采用六字位的汉字标注方式:“S”、“B”、“B2”、“B3”、“M”和“E”。其中“S”、“B”和“E”的含义与(2)相同,“B2”表示汉字出现在词的第二个位置,“B3”表示汉字出现在词的第三个位置,“M”表示汉字出现在词中间的其他位置。
  
  三、基于HMM和CRF的双层分词模型
  
  (一)基于HMM的粗分
  取得原始语料并进行预处理后,在底层采用隐马尔可夫模型(HMM)对语料进行粗分,其具体算法描述如下:
  1.对训练语料进行学习,估计出HMM(S,K,,A,B)的各个参数。
  2.对于每个观察序列,采用Viterbi算法找到产生该观察序列的最大可能路径。
  3.沿着该最大路径对观察序列进行标记。
  HMM粗分完成后,将结果作为输入进入到下一层模型处理中。
  
  四、分词实验
  
  (一)实验评测标准
  评价汉语自动分词的性能主要有如下三个指标:P,R,F值。其中P指的是分词的准确率;R指的是分词的召回率;F值指的是P和R的综合值。P=正确的切分结果数/所有的切分结果数,=正确的切分结果数/标准答案中的切分结果数。
  其中,表示确定准确率和召回率权重的因子。
  
  (二)实验结果
  一共设计了三个实验,第一个实验采用单独的HMM进行分词标注,第二个实验采用单独的CRF进行分词,第三个实验采用本文提出的基于HMM和CRF的双层模型进行分词。采用的CRF工具为CRF++0.53版本,实验的结果如表1所示。
  从实验的结果可以看出本文提出的双层模型在三个评价值上比单独应用HMM或者CRF都有所提高,证明本文提出的模型是有效的。
  
  五、总结
  
  本文提出了一个基于HMM和CRF的双层分词模型,下层采用HMM进行粗分,在上层使用CRF进行标注,达到了较好的效果。下一步的实验方向就是用HMM进行粗分后,对结果进行一定的纠错和处理,再传入上层进行CRF标注,还可以进增加一些有效的特征,以提高整个模型的精度。
  
  参考文献:
  [1]陈立为、袁琦,中文信息处理应用平台工程[M].北京:电子工业出版社,1995.
  [2]Hinrich著,李庆中等译,统计自然语言处理基础[M].北京:电子工业出版社,2005.
  [3]刘群、张华平、俞鸿魁,基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.
其他文献
[摘要]在中国进行短期考察的外国学者遭遇“钥匙槽”事件,呼吁从中美两个极端中寻求一种更好的教育方式。“钥匙槽”事件其实也是一种在他乡遭受到的、由两种文化价值觀对立而造成的深度焦虑症。  [关键词]“钥匙槽”事件隐蔽文化深度焦虑症   中图分类号:G1文献标识码:A文章编号:1671-7597(2009)1220199-02    一、引言    在全球化的今天,跨文化研究依然不衰。跨文化交际中的文
期刊
[摘要]阐述SF6断路器微水超标的危害性,分析SF6断路器微水超标的具体原因,并提出SF6断路器微水超标的拉制措施。  [关键词]SF6断路器微水超标原因分析措施  中图分类号:TM3文献标识码:A文章编号:1671-7597(2009)1110019-01    一、引言    SF6断路器具有断口电压高、开断能力强、允许连续开断的次数较多、噪声低,而且断路器尺寸小、重量轻危险、容量大、维修周期
期刊
[摘要]微软公司发布的一款视窗操作系统Windows XP提供很多功能。主要研究Windows XP提供的常用网络服务功能。  [关键词]Windows XP网络服务DHCPDNS  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)1110092-01    一、引言    目前的网络服务,一般是指一些在网络上运行的、面向服务的、基于分布式程序的软件模块,网络服务采用HTT
期刊
[摘要]对时域和频域光学相干层析术(Optical coherence tomography,OCT)系统的性能通过理论计算,进行分析和比较,对时域和频域OCT系统的特性进行深入的研究,为OCT系统的性能分析和提升提供理论依据。  [关键词]光学相干层析术时域频域  中图分类号:R1文献标识码:A文章编号:1671-7597(2009)1110005-01    一、引言    光学相干层析术[1
期刊
图像置乱技术的目的是将图像噪声化,使得图像的能量尽量地均匀分布。由于图像置乱可选取不同的方法,同样的方法可以设置不同的参数,组合起来的结果会千差万别,因此,将置乱作为图像加密的一种方法从安全的角度考虑是可行的。
期刊
[摘要]计算机网络实验课程的教学对于学习计算机网络知识非常重要,但是由于实验环境的种种限制,真实的网络实验环境通常很难满足学生的需求。为解决此问题,提出用虚拟软件VMware模拟网络环境的方法,此方法实现单机多系统的网络模拟环境,进而给网络实验课程的教学提供一种新的思路。  [关键词]VMware网络实验虚拟机操作系统局域网  中图分类号:TP319文献标识码:A文章编号:1671-7597(20
期刊
[摘要]随着教育手段的不断发展和教学体制的改革,信息技术在教学中扮演着越来越重要的角色。实现教学内容的信息化已经成为教育战线大势所趋的主流。而信息技术在职业教育中的专业课教学的研究是现代职业教育工作者不断探索的方向,也是职业教育改革的必然需求。因此,就信息技术在职业教育专业课发动机教学中的应用进行探讨。  [关键词]信息技术职业教育专业课发动机教学  中图分类号:G43文献标识码:A文章编号:16
期刊
[摘要]针对高中女生体育课中表现出积极性、主动性差等消极现象,结合心理、生理进行分析研究。找出消极动因的主要表象和成因,并结合教学实践提出相应的应变措施,以把握和女生体育课堂中的积极心理动因。  [关键词]女生积极心理教师   中图分类号:G44文献标识码:A文章编号:1671-7597(2009)1110174-01    任教几年来,我发现大部分女生在课堂上遇到自己不喜欢的项目时积极性、主动性
期刊
[摘要]设计采用硬件编程语言VHDL,设计方波﹑三角波和正弦波,利用QuartusⅡ7.2软件对三种波形的程序进行仿真,通过CPLD芯片EPM1270T144C5和DAC0832及放大器实现信号的传输,最后示波器完成波形的显示。采用VHDL语言设计的电路能够灵活地修改参数,而且极大地提高了电路设计的通用性和可移植性。  [关键词]波形CPLDVHDLDAC0832  中图分类号:TN911.75文
期刊
[摘要]介绍污染物排放总量控制的概念和优势,针对我国目前实施总量控制的现状,提出合理化建议。  [关键词]污染物排放总量控制现状建议  中图分类号:X5文献标识码:A文章编号:1671-7597(2009)1110206-01    在1988年召开的第三次全国环境保护会议,国家环保局提出了同时实行浓度控制和总量控制的污染控制对策,确定了由浓度控制向总量控制发展的方向[1]。1996年全国人大通过
期刊