论文部分内容阅读
命名实体识别,又称作“专名识别”,是指识别出文本中像人名、地名、组织机构名等具有特定意义的实体,它是信息抽取、问答系统和机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有着重要的地位。近年来,中国和东盟国家的联系越来越多,而云南作为中国面向西南开放的一个重要桥梁,语言上的相互沟通是实现中国和东盟国家之间政治、文化、经济交流的前提。目前,在英语、汉语和泰语等语言方面已经有了很多关于命名实体识别的研究,但是在老挝语方面还是非常的薄弱,因此为了促进中国与老挝国的交流,研究老挝语命名实体识别是非常有意义的。本文针对老挝语固有的语言特征,主要开展对老挝语人名、地名和组织机构名识别方法的研究。主要研究成果如下:(1)基于条件随机场与启发式信息的老挝语人名和地名的识别研究根据老挝语人名、地名实体构成特点,通过条件随机场模型,识别出候选老挝语人名、地名实体。然后,利用启发式信息对候选老挝语人名、地名进行纠正。最后,利用命名实体词列表对模型未识别出来的老挝语人名、地名进行进一步的识别,得到最终的老挝语人名和地名。实验结果证明融合启发式信息能够提升仅采用机器学习方法识别的效果。(2)融入广义期望准则的半监督层叠条件随机场的老挝语人名和地名的识别研究由于现在老挝语领域的专家比较少,语料标注也比较困难,因此,提出了一种使用广义期望准则来表达参数设置的一个优先选择权,识别老挝语人名和地名的半监督层叠条件随机场的学习方法。首先,选择一些代表性的老挝语人名和地名作为标记特征并对其进行期望值计算,然后通过广义期望准则对期望值进行打分,返回矢量值作为约束,利用条件随机场构建第一层模型提取出简单的老挝语人名和地名,最后以提取出的实体作为特征,再利用条件随机场构建第二层模型识别出复杂的老挝语人名和地名。本文通过提供不同的训练数据以及与其他实验的比较表明该方法的有效性。(3)基于词典与条件随机场的老挝语组织机构名的识别研究老挝语组织机构名的特征及其上下文之间的关系比较复杂,且有些和老挝语人名、地名的特征不同,所以利用现有的老挝语词典提出了一种基于词典与条件随机场的老挝语组织机构名的识别方法。首先,结合老挝语词典构建老挝语组织机构名词典单词特征,并结合其他特征,例如指示词特征,“和”或“与”特征等,采用条件随机场对老挝语组织机构名进行初步的识别。