基于条件随机场的命名实体识别研究

被引量 : 35次 | 上传用户:grindswods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别就是把文本中出现的命名实体包括人名、地名、组织机构名、日期、时间、和其他实体识别出来并加以归类。命名实体识别是自然语言处理中的热点问题和基础性工作,对自然语言处理具有极其重要的意义,并被应用到自然语言处理的许多领域,如信息检索、信息抽取和机器翻译等。 本文首先对当前命名实体识别的研究进行了总结和回顾,并介绍了国内外命名实体识别评测活动,研究了当前命名实体识别研究的进展和命名实体识别所使用的各种方法; 中文分词和命名实体识别二者相辅相成、不可分割。分词可以作为命名实体识别的一个预处理环节,而命名实体识别的目的之一也是为了提高分词的精度。本文进行了基于最大熵模型的中文自动分词的研究,提出了对切分点进行标注的分词方法,利用该方法实现了一个基于最大熵的中文分词系统,并参加了第三届国际中文处理评测的分词比赛; 最后,本文进行了基于条件随机场的命名实体识别的研究,提出了一种将最大概率分词信息融入到条件随机场模型中来进行命名实体识别的方法。条件随机场是一种统计机器学习方法,在序列标注和分割方面有着优秀的表现;最大概率分词是一种效果较好的词语粗切分方法,在只返回单个切分结果的所有粗切分方法中具有较高的句子召回率。本文把这两者有机地结合起来,分别进行了人名识别和地名识别实验,都取得了较好的效果,证明了这种方法的有效性。
其他文献
随着服务型政府理念的提出,中国一些地方政府开始逐步探索和实践服务型政府的转型。本文通过对发展型政府和服务型政府的理论溯源和概念澄清,指出从发展型政府向服务型政府转
分析了中国现行规范用来评价SBS改性沥青储存稳定性的优缺点,针对不足之处,参考美国国家公路合作研究计划(NCHRP)的LAST法,自行开发设计了可以自动恒温重复取样的储存稳定性
皮肤各部位发生血管角化瘤的报道甚多,而外阴血管角化瘤则很少见,因而认识不足,临床上易与痣、血管瘤、疣及黑色素瘤混淆。此瘤国内至今尚未见报告。本文5例外阴血管角化瘤
随着我国现有经济跌发展,客运渐渐成为我国铁路运输中的主流交通方式,而客运服务质量成为了轨道交通中客运的竞争力的源泉之一,不仅引起了广大乘客的注意,还在客运公司的眼中
目的探讨接矽尘作业人员体内硅元素水平变化在矽肺发病机制、早期诊断中的意义。方法采用电感耦合等离子体质谱仪(ICP-MS)检测接矽尘作业工人、矽肺观察对象、矽肺患者及对照
现阶段在膜应用过程中最大问题是膜污染问题,国内外的研究往往都是通过对膜本体材料的选择,膜表面的改性、膜应用工艺的优化等方面进行研究减缓膜污染的问题,很少针对膜的纵向深
低截获概率(Low Probability of Intercept,LPI)雷达信号的调制识别是电子侦察中的重要环节,是获取非合作方雷达信息的重要手段。只有充分掌握非合作方雷达的关键信息,才能有
莫来石因独特的针、柱状穿插骨架结构使其具有优良的热稳定性、化学稳定性和机械性能而被广泛应用于耐高温、防腐蚀和耐磨损等领域。由于目前粉煤灰在我国排放量大、利用率低
目的探讨克氏针阻挡技术治疗Mallet骨折的临床疗效。方法回顾性分析采用克氏针阻挡技术治疗的14例Mallet骨折,采用闭合复位,手指远节指间关节(DIP)极度屈曲下钻入阻挡针,然后
中国保健协会最新的调查数据显示,目前我国每年保健品的销售额约2000亿元,其中老年人消费占了50%以上。调查显示,超过65%的老年人使用过保健品。在保健品获得渠道中,老年人自