【摘 要】
:
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提
【机 构】
:
南京理工大学计算机科学与技术学院,中国科学院计算机语言信息工程研究中心,内蒙古师范大学计算机与信息工程学院
【基金项目】
:
基金项目:本文得到国家863(2006AA012152,2006AA010109),国家自然科学基金(60672149)资助.
论文部分内容阅读
命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类:常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法。该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别。实验结果表明:相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%。同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发
其他文献
本文使用25年国家科学自然基金材料领域的项目数据,从项目题目中提取出项目关键词,构建了有关材料领域关键词的多维网络,详细研究了网络参数对网络演化的影响,根据关键词的统
本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、x^2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析
本文通过分析都柏林核心元数据的文本结构,阐述了元素项的定义和取值引用规范作为跨领域的信息资源描述标准对于制定具体数据标准的重要指导意义。结合实际研制过程,分析并比较
手机等掌上设备的技术越先进,与互联网靠得越近,随之而来的烦恼似乎也越多。
为比较科技用户在搜索网络文献时,通过“接受建议”和“干中学”这两种信息积累方式表现出的行为特征和绩效差异,本文以用户的实际网络检索行为为实验对象,设计了包括实验组和对
本文首先对ISI Web of Knowledge数据库中收录的以网络计量学为主题的文献的时空分布进行分析,然后利用信息可视化软件CiteSpace绘制出网络计量学领域的代表人物、代表作品以
目的探讨妊娠合并糖尿病并发妊高征的治疗对分娩时间、方式以及围生儿的影响。方法选取我院2017年6月至2017年12月接诊的150例妊娠合并糖尿病并发妊高征的患者作为研究组,选
Web2.0的出现使信息构建发展到了一个新的阶段——信息构建2.0(IA2.0)阶段。在这一阶段,由于用户参与构建、社会性因素引入等新特点的出现,信息构建问题变得异常复杂,传统信息构建的