论文部分内容阅读
随着互联网的飞速发展,信息的理解和处理越来越受到人们的关注。内容信息的理解需要自然语言的语义分析技术,而自然语言的语义分析离不开相应的语义词典的支持,因此语义词典的建设已经成为自然语言处理的一项基础性工作。语义词典作为自然语言处理的一项基础资源,不仅对分词、命名实体识别、词义消歧等自然语言处理的底层技术有帮助,而且在问答系统、信息检索、文本分类等上层应用中也大有用武之地。为了建设一部实用的、能在中文信息处理领域中发挥重要作用的词典,本文构建了一部具有简单结构、收词量足够大的汉语语义词典——词脉,不仅整合了已有的语义词典,如同义词词林(扩展版)、知网等,还充分利用了互联网,融入了网络上的词条资源,如百度百科、搜狗细胞词库等,从而在扩大词典规模的同时融入了新词信息。词脉采用五层分类体系描述单词词义,词语之间体现了良好的层次关系;每个词义下是一个同义词集合,每个集合中的单词互为同义关系或同类关系。本文首先整合了同义词词林(扩展版)和知网这两部词典构建了词脉的通用领域部分。将知网融入到同义词词林(扩展版)体系中,首先采用基于同义词的算法融合,对于采用同义词算法没有融入的知网中的单词,再采用基于同类词的算法。人工校对自动融合的结果后,构成了词脉的通用领域部分。然后构建了词脉中的专有领域部分。根据百度百科的特点,采用基于词条的开放分类标签的自动融合方法,融入了83部专有领域词典,1,751,756个单词;根据搜狗细胞词库的特点提出了手工标注搜狗细胞词库的分类体系到词脉的词义体系的映射关系的融合方法,融入了26部专有领域词典,4,417,937个单词。接下来,对词脉作了规范化处理。采用SVM算法识别了“人名”领域词典中正确的人名,排除了分类错误的单词,在测试集上的F-值达到了99.926%,比Baseline方法高出了约7个百分点,满足了应用需求。最后,为了便于用户更好地了解词脉中的数据,开发了词脉在线系统。