论文部分内容阅读
句法分析是自然语言处理中的重点和难点。针对完整的句法分析在处理大规模真实文本中遇到的困难,许多研究人员尝试着把一个完整的句法分析问题分解为若干个子问题,以逐步降低完整句法分析的难度,提高分析效率。浅层分析就是在这样的发展趋势下出现的一种新的语言处理策略。它致力于识别句子中某些结构相对简单、但在句子组成中意义重要的成分,从而简化句子结构,为句子更深层次的分析提供基础。浅层分析不仅对需要完全句法分析的机器翻译有重要的作用,而且在一些不需要完全句法分析的自然语言处理任务中也有广泛应用,如词典编纂、信息提取、文本分类、文摘生成和问答系统等领域。随着在语料库基础上发展起来的经验主义方法在自然语言处理中的广泛应用,统计语言模型已经成为当前各项自然语言处理任务中的主流技术。本文在统计方法的基础上对汉语浅层分析进行了研究,主要包括:新词识别,命名实体识别和组块分析。提出了互信息与串频统计相结合的新词识别方法。识别的新词主要指未登录词中的非命名实体。将单字、单字词及其相邻的多字词列入新词的候选成分,计算候选成分之间的互信息时,融合了成词可信度信息和词长信息,并将串频统计信息加入到可能包含新词的候选字段对应的互信息向量中。该方法可以识别由多字词与单字或多字词与单字词组成的新词,取得了较好的新词识别结果。命名实体是一种很重要的未登录词。未登录词的存在会造成自动分词的错误,分词错误又会反过来影响未登录词的识别。针对自动分词与命名实体识别之间存在互相影响的矛盾问题,提出了一种基于有向图语言模型的与分词一体化的命名实体识别方法。将普通候选词和命名实体候选词映射为有向图节点,将候选词之间的接续关系映射为有向边。利用N-gram模型为有向边赋以合适的权值,使句子最好的分词方式尽可能对应有向图的最短路径。该一体化方法提高了命名实体识别的精度。给出了双规则AdaBoost(DR-AdaBoost)分类算法并将其成功应用于汉语组块分析。DR-AdaBoost算法在每次迭代中将双规则(最优弱分类规则和次优弱分类规则)线性组合作为评价标准.在UCI数据集和CoNLL-2000共享数据集(英语组块分析)上的测试结果表明、该算法与AdaBoost算法相比,收敛速度快且分类精度高。在汉语组块分析任务中,DR-AdaBoost算法提高了组块分析的精度。DR-AdaBoost算法还可以应用于其它自然语言处理任务或其它分类问题中。