大规模汉语语义词典构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cedzyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息的理解和处理越来越受到人们的关注。内容信息的理解需要自然语言的语义分析技术,而自然语言的语义分析离不开相应的语义词典的支持,因此语义词典的建设已经成为自然语言处理的一项基础性工作。语义词典作为自然语言处理的一项基础资源,不仅对分词、命名实体识别、词义消歧等自然语言处理的底层技术有帮助,而且在问答系统、信息检索、文本分类等上层应用中也大有用武之地。为了建设一部实用的、能在中文信息处理领域中发挥重要作用的词典,本文构建了一部具有简单结构、收词量足够大的汉语语义词典——词脉,不仅整合了已有的语义词典,如同义词词林(扩展版)、知网等,还充分利用了互联网,融入了网络上的词条资源,如百度百科、搜狗细胞词库等,从而在扩大词典规模的同时融入了新词信息。词脉采用五层分类体系描述单词词义,词语之间体现了良好的层次关系;每个词义下是一个同义词集合,每个集合中的单词互为同义关系或同类关系。本文首先整合了同义词词林(扩展版)和知网这两部词典构建了词脉的通用领域部分。将知网融入到同义词词林(扩展版)体系中,首先采用基于同义词的算法融合,对于采用同义词算法没有融入的知网中的单词,再采用基于同类词的算法。人工校对自动融合的结果后,构成了词脉的通用领域部分。然后构建了词脉中的专有领域部分。根据百度百科的特点,采用基于词条的开放分类标签的自动融合方法,融入了83部专有领域词典,1,751,756个单词;根据搜狗细胞词库的特点提出了手工标注搜狗细胞词库的分类体系到词脉的词义体系的映射关系的融合方法,融入了26部专有领域词典,4,417,937个单词。接下来,对词脉作了规范化处理。采用SVM算法识别了“人名”领域词典中正确的人名,排除了分类错误的单词,在测试集上的F-值达到了99.926%,比Baseline方法高出了约7个百分点,满足了应用需求。最后,为了便于用户更好地了解词脉中的数据,开发了词脉在线系统。
其他文献
<正>函数的对称性是函数的一个重要性质,这类问题抽象程度高,解题过程灵活,给学生解题容易造成思维障碍.下文中,笔者将撷取与对称性有关的试题进行分析,与读者交流.例题(2012
期刊
核心提示:我国是医药消费大国,但远不是医药强国,原因在于我国的新药开发能力薄弱。随着经济的发展,人民生活水平不断提高,公民对健康保障的需求越来越强烈。目前,我国医药市
<正>一、高中数学中的七种距离高中阶段,我们要求掌握的距离主要有七种:点与点、点与线、点与面、线与线、线与面、面与面,这六种距离是在必修教材中要求掌握的内容,属于欧氏
街道、社区是党在城市工作的基础,街道、社区党建工作,是党的基层组织建设的重要组成部分。在全面建设小康社会、加快推进社会主义现代化的新的发展阶段,我国城镇化进程不断
高分子涂层在自然条件下会受到各种因素的影响而发生老化,本文总结了影响涂层老化的主要因素,指出太阳辐射、温度、水分(湿度),氧和臭氧,污染物等是引起高分子涂层老化最主要
激励是企业人力资源管理的核心,也是企业竞争优势的重要来源。随着我国经济的飞速发展,激励在人力资源管理中的作用更加突出。如何制定与完善适合企业实际的激励体系,充分激
生物多样性与人类社会可持续发展密切相关,生物多样性评价是生物多样性保护与管理的基础。准确可靠地掌握生物多样性信息是生物多样性保护科学决策的依据,大尺度的生物多样性
目的:研究蛋白酶体抑制剂MG132对大鼠肠缺血再灌注肠、肺损伤的保护作用与调控Nrf2/Keap1-ARE通路之间的关系。方法:将32只健康雄性SD大鼠随机分为4组:正常对照组、I/R组、对
对河南省18个地市350家乡镇卫生院展开问卷调查,建立数据库,进行数据分析获取第一手资料.结果发现:由于长期受城乡二元结构体制的影响,乡镇卫生院不断萎缩,农村三级医疗服务
产权是新制度经济学的核心概念,收入是经济长期发展所需的重要因素。如何用产权概念解释企业内收入差距的产生,不仅具有重要的理论意义也具有重要的现实意义。迄今为止国内外