领域本体在中文命名实体识别中的应用研究

来源 :武汉理工大学 | 被引量 : 7次 | 上传用户:strongstrongqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Named Entity Recognition,简称NER),作为自然语言处理任务中一项基础性工作,已经被广泛地应用在一些语言处理领域中,如信息检索、信息抽取和机器翻译等。国外最早的是基于英文命名实体识别的研究,随着命名实体识别技术的发展,中文命名实体识别逐渐引起了更多研究者的广泛重视。由于汉语自身的特点,使得中文命名实体识别成为一个比英文更加困难的任务。本文首先对当前命名实体识别的方法进行了总结和回顾,在众多识别方法的研究中,发现条件随机场CRFs模型(Conditional Random Fields,简称CRFs)取得了比其他模型更好的中文识别效果。为了提高中文命名实体识别的整体性能,本文采用基于统计和规则相结合的方法对命名实体进行了识别,重点考察了领域本体在中文命名实体识别中的具体支持方式和作用。首先将面向对象开发方法运用于构建本体的七步法中,建立了笔记本电脑领域本体;然后根据条件随机场CRFs模型着重研究了如何选择有效的特征来提高命名实体识别的效率,在此基础上,本文除选用常用的词上下文、词性特征外,还将本体作为其语义特征选择。最后,从领域本体实例化中抽取出规则用于识别用户所关心的常规命名实体,以对统计方法识别的结果进行补充,提高了命名实体识别的整体性能。为了验证领域本体被引入到条件随机场CRFs模型中的可行性,本文对其进行了对比实验,设计了两种不同的特征模板,通过对比分析显示,引入了本体的特征模板的命名实体识别的准确率、召回率和综合性能F值明显地高于常用的特征模板的,从而更进一步充分地说明了领域本体在中文命名实体识别中的作用;另外统计与规则相结合的命名实体识别效果优于基于CRFs模型的识别效果。为此,本文还完成了一个领域实体识别系统的原型,主要是为了可视化地展示进行命名实体识别的具体步骤。
其他文献
为了满足基于无线传感器网络的危险品运输监测系统的高可靠性和高实时性,在设计时必须要求传感器节点的低功耗和系统对事件处理的实时性响应,从而实现车辆在行驶状态中传感器
膜计算是生物计算的分支,是从生物活细胞的功能和结构中抽象出来的计算模型。膜计算又称之为P系统,是由罗马尼亚科学家Gh.Paun于1998年提出的一种计算模型,为计算机科学带来
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解
当今世界,科学技术飞速发展,信息技术日新月异。随着网络技术快速发展和在教育中的广泛应用,针对网站和网络设备的监控已经成为网络发展中必然产物。如何选择一个适合的监控
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的主题模型算法。它对每篇文本以及文本中每个单词进行主题层次上的聚类,将高维稀疏的文本单词矩阵分解成两个相对
随着信息技术的普及和深入应用,企事业已将大量以各种形式存在的关于顾客、产品开发和协作知识等的信息存储于内部的信息管理系统中;同时因特网上也出现了大量企事业感兴趣的
在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据
深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映
编译器是嵌入式系统研发的基础,快速实现特定硬件平台的嵌入式系统编译器可以大大缩短嵌入式系统研发周期。目前研究人员主要采用GCC编译器后端移植方法来生成嵌入式系统编译
针对目前的规则引擎集成方式没有很好的解决系统中多规则引擎的灵活管理以及不同规则库的管理工作的不足,给出了一套基于Web的规则引擎的集成方案。规则引擎集成平台的设计分