论文部分内容阅读
命名实体识别是将文本中的元素分成预先定义的类,如人名、地私、组织机构名、时间、货币等等。作为自然语言的承载信息单位,命名实体识别属于文本信息处理基础的研究领域,是信息抽机构取、信息检索、机器翻译、问答系统等多种自然语言处理技术中必不可少的组成部分。在实体识别领域,国外科研机构针对英文实体的识别已取得了突出的成绩,识别准确度达到90%以上。由于中文在分词及语义方面存在着众多的困难,国内针对该问题还处于研究和探索阶段。所以针对中文实体及关系的识别的研究有着重大的意义。论文的工作主要体现在以下几个方面:第一,研究分析了用于实体识别及实体关系识别的众多的机器学习模型,包括隐马尔科夫模型、最大熵模型以及支持向量机模型。分析这些模型在实体识别方式方面的优势和缺陷,并通过分析发现新兴的“条件随机场模型”是一种在结构上继承了经典模型的优点,并克服了在识别中不能依赖周边信息以及标记偏置等缺陷的模型。国内外的相关实验也表明在自然语言处理,特别是实体识别领域,条件随机场模型有着更加出色的发挥。故而本系统选用其作为实体及实体关系识别的算法模型。第二,由于条件随机场模型拥有可进行长距离信息依赖的特点,可以充分利用当前词前后词的属性对当前词进行更加准确的判断,因此本论文将该模型选择为本课题研究和引用的模型。而“条件随机场模型”也存在着“过于依赖特征的选取”的弊端,即实体识别程度的好坏在很大程度上取决于对于特征向量选取的好坏。现阶段还没有针对中文特征选取的相关规则,本文将针对该系统语料集的特点,使用由简到繁的特征选取方式构建特征模板。因此对于特征的选取及特征模板的构建是本系统的重点工作。在实体识别阶段构建的特征模板为:1)选取词语本身及词性作为特征构建了基本特征模板;2)选取实体特征,通过语料转换构建了实体特征模板;3)选取实体指示词构建了指示词模板,并在其中加入了相关的专业词典信息;4)通过特征的组合构建了组合特征模板。在实体关系识别阶段除了选取了基本特征、词性特征外,本文还提出了将句法结构作为重要的特征用于构建特征模板。通过对句法结构的分析,选取共同节点特征、依赖动词特征、实体-实体路径特征以及实体-依赖动词路径特征作为实体关系识别的重要特征。第三,本系统以条件随机场模型为框架,使用1998年人民日报语料做为训练集,完成模型的训练工作。在网页解析方面,提出了一种结合HTMLParser的技术将涉及《天龙八部》小说人物的百度词条中的正文信息进行了提取,生成测试集。使用测试集进行实体识别及实体关系识别的实验,数据表明本文提出的特征模板已经达到了良好的准确度、召回率。本系统将识别出的人物实体的关系对形成索引,并以简图的形式进行人物关系的展示。在模型方面,该研究为条件随机场的特征选取方式提供了一种规则借鉴。在系统方而,这种通过将机器学习算法引入文学作品,并分析人物关系的方式也成为了文学研究的一种尝试与探索。