论文部分内容阅读
在人们利用计算机技术自动处理海量信息的大背景下,信息检索、信息抽取、机器翻译、文摘生成等技术应运而生。命名实体识别是对文本自动处理的前提工作,它的质量会直接影响到后续的一系列工作。虽然命名实体识别技术已经相当成熟,然而从评测的结果来看,中文命名实体的识别还远不能满足应用的需求。因为这里存在着技术、资源、应用需求之间有机结合的问题。 缩略语和其他命名实体一样,具有开放性和发展性的特点,而且表现形式极其丰富,给其识别带来了一定的困难。包括缩略语识别在内的命名实体识别问题已经成为词法分析使用化的主要瓶颈。缩略语识别作为命名实体识别的一个子任务,是自然语言处理领域的一个重要而困难的问题。 在本文中,我们以新闻语料中的缩略语为研究对象,提出了一种基于规则与统计相结合的缩略语识别方法;以及基于互信息的缩略语的还原方法。在缩略语的还原实验中本文利用缩略语相对稳定地抽取规律这一特性,通过统计生成缩略语字对应原语言词的词典,利用匹配概率和共现概率进行缩略语对应原语言的还原,取得了较好的效果。主要的研究内容有以下几方面: 1.首先根据缩略语同原语言的关系将缩略语分为有回指的缩略语和零回指的缩略语,这样的分类为以后的工作提供了一个清晰明确的方向。 2.通过对真实语料的统计,深入分析了缩略语的内部特征和上下文环境特征,为基于规则的缩略语识别建立了语言学基础。同时,建立了基于真实语料的缩略语资源库,包括缩略语词库、特征词库和缩略语字对应原语言词的词典库等。其中,还使用了《现代汉语缩略语词典》作为语义资源,对缩略语词库进行了语义扩充。 3.建立了缩略语实例库。在构建实例库的过程中,不仅考虑了缩略语的内部结构,而且加入了缩略语上下文环境信息,即实例向量中包含了缩略语的内部结构和上下文结构,较好地综合利用了各种启发信息。 4.按照基于规则识别缩略语的策略,设计实现了一个缩略语识别实验系统。首先通过模糊匹配的方法,将有回指的缩略语识别出来,然后根据规则对零回指的缩略语进行识别,从而完成了缩略语识别的过程。 5.提出了一种基于互信息的缩略语的还原方法。我们针对缩略语同原语言的不同关系,提出了两种不同的的缩略语还原方法。首先对于有回指的缩略语采用模糊匹配同规则相结合的方法进行缩略语的还原;其次对于零回指的缩略语采用基于互信息的方法对缩略语进行还原。 我们对所选用的150万语料进行测试,根据规则正确识别缩略语1,289个,漏识别78个,错误识别97个;系统召回率为:94.3%,准确率为93.0%;根据统计的方法对缩略语进行还原,正确还原989个,错误还原378个,准确率为72.3%。