老挝语命名实体识别方法的研究

来源 :昆明理工大学 | 被引量 : 6次 | 上传用户:davidchen19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别,又称作“专名识别”,是指识别出文本中像人名、地名、组织机构名等具有特定意义的实体,它是信息抽取、问答系统和机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有着重要的地位。近年来,中国和东盟国家的联系越来越多,而云南作为中国面向西南开放的一个重要桥梁,语言上的相互沟通是实现中国和东盟国家之间政治、文化、经济交流的前提。目前,在英语、汉语和泰语等语言方面已经有了很多关于命名实体识别的研究,但是在老挝语方面还是非常的薄弱,因此为了促进中国与老挝国的交流,研究老挝语命名实体识别是非常有意义的。本文针对老挝语固有的语言特征,主要开展对老挝语人名、地名和组织机构名识别方法的研究。主要研究成果如下:(1)基于条件随机场与启发式信息的老挝语人名和地名的识别研究根据老挝语人名、地名实体构成特点,通过条件随机场模型,识别出候选老挝语人名、地名实体。然后,利用启发式信息对候选老挝语人名、地名进行纠正。最后,利用命名实体词列表对模型未识别出来的老挝语人名、地名进行进一步的识别,得到最终的老挝语人名和地名。实验结果证明融合启发式信息能够提升仅采用机器学习方法识别的效果。(2)融入广义期望准则的半监督层叠条件随机场的老挝语人名和地名的识别研究由于现在老挝语领域的专家比较少,语料标注也比较困难,因此,提出了一种使用广义期望准则来表达参数设置的一个优先选择权,识别老挝语人名和地名的半监督层叠条件随机场的学习方法。首先,选择一些代表性的老挝语人名和地名作为标记特征并对其进行期望值计算,然后通过广义期望准则对期望值进行打分,返回矢量值作为约束,利用条件随机场构建第一层模型提取出简单的老挝语人名和地名,最后以提取出的实体作为特征,再利用条件随机场构建第二层模型识别出复杂的老挝语人名和地名。本文通过提供不同的训练数据以及与其他实验的比较表明该方法的有效性。(3)基于词典与条件随机场的老挝语组织机构名的识别研究老挝语组织机构名的特征及其上下文之间的关系比较复杂,且有些和老挝语人名、地名的特征不同,所以利用现有的老挝语词典提出了一种基于词典与条件随机场的老挝语组织机构名的识别方法。首先,结合老挝语词典构建老挝语组织机构名词典单词特征,并结合其他特征,例如指示词特征,“和”或“与”特征等,采用条件随机场对老挝语组织机构名进行初步的识别。
其他文献
期刊
储蓄-投资转化率一直为传统的经济增长模型所忽略,如经典的Solow模型中资本运动方程k=sy-δk实质假设储蓄-投资转化率恒等于1(Solow,1956)①.尽管其后的Cass(1965)、Koopmans
(一) 邓小平在思考和回答什么是社会主义本质的同时,也提出了政策要体现社会主义本质的思想。他说:“社会主义是一个很好的名词,但是如果搞不好,不能正确理解,不能采取正确的
建设工程的成本是由建设单位的负责和管理水平所决定的。可以说建设单位决定施工工程成本多少,工程施工过程是进行节约还是浪费,在工程施工过程中,建设单位在其中扮演极其重
《医学统计学》是医学科学的一个组成部分,是医学院校各专业学生的公共必修课.作为20世纪发展最快的学科之一,统计学已经应用到几乎所有的学科领域,医学也不例外,最近的一次调查表明,有76%的医学研究论文中运用了统计分析方法,但几乎所有的研究论文都运用了统计学思想,医学统计学已经成为21世纪医学科学工作者必须掌握的工具之一.
数字化控制(DSP)软件的产生和发展逐渐取代了模拟和数字器件,提分高了产品的集成度,增强了系统的稳定性和智能型,并逐渐成为不间断电源系统(USP)技术的主要发展趋势之一。本文基
“大鹏半岛辖区内能供游艇、休闲渔船停泊的公共码头一个都没有,东山码头、南澳双拥码头都是小渔船码头,浪骑游艇会、七星湾游艇会是高档私人码头,高达数十万元的入会费与每月上
报纸
本文论述了卫星高动态扩频测控信号快速捕获的基带处理算法和具体实现,针对星载测控应答机高动态、弱信号和抗干扰的任务特点,重点讨论了捕获技术参数和快速捕获算法处理流程并
有报道,皮下埋藏睾酮及雌二醇可以抑制雄性恒河猴的 LH 释放,睾丸的甾体生成并继而抑制精子生成。基于对这一配方的可能不利副反应的考虑,从而提出,在非人灵长类,若皮下埋藏
期刊
肺癌是发病率及致死率最高的恶性肿瘤。肺癌按组织病理类型可分为非小细胞肺癌(NSCLC)及小细胞肺癌(SCLC),其中前者约占肺癌的80%~90%。因肺癌患者早期无特异的临床症状,故大