基于知识库的词表示学习方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:ustczl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能领域的重要研究方向,词表示作为自然语言处理工作中的基础工具也越来越成为研究的热点之一。目前流行的词表示学习的方法主要遵循分布假说。基于这项假说的分布语义模型多依赖于大规模的文本语料库,这也给词表示在准确性上造成了局限性。一方面研究表明,针对专门领域的语料库训练出来的词表示在一些特定任务中表现的效果更好,另一方面也表明语料库越大,训练出来的词表示效果越好。那么如何解决因语料库规模增大而导致领域混杂所带来的损失是本文研究的重点和难点。针对以上问题,本文提出使用知识库来增强词表示能力。鉴于知识库提供了词汇项之间精确的语义关系,利用这一特征恰好来弥补大规模语料库中目标单词上下文之间领域模糊问题。一方面,本文将知识库提供的词汇项关系作为一种“精确”的上下文加入到目前流行的分布语义模型中,另一方面,相较于前者知识库作为一个整体加入训练,针对知识库关键词之间的强弱关系特征,再次使用知识库来加权调节目标单词的词表示,进一步提升词表示质量。最后,针对知识库提供的大量词关系对,对于一词多义的目标单词,在其众多词关系对中加入聚类算法从而分类训练出一词多义的词表示。实验结果中,针对训练出的词表示质量的衡量,本文不仅选用目前流行的标准测试集,包括Word Sim353,SimLex999,TOEFL等,还构建了一个新的标准测试集,IQ-Synonym-323,其包含了 323道人类智力同义测试集。通过现有模型和本文提出的模型分别在该数据集上和常用数据集上的评估,不仅说明了本文模型相较于现有模型的效果有所提升,同时也反映出该全新数据集的适用性。
其他文献
随着以人为中心的Web2.0时代的蓬勃发展,互联网中产生了大量关于人物,事件,产品等包含用户情感的有价值的评论信息,文本情感分析技术能有效挖掘其价值,因此越来越受到关注。
学术身份是大学教师增进知识与谋求知识新应用的首要特征,公共性是大学教师科学研究的本质属性。随着经济社会发展和大学职能延伸,大学教师科学研究开始越来越多的参与到社会服务中,同时也不可避免的受到政府、市场等力量的影响甚至冲击。现阶段,作为国家科研事业和社会科研活动的重要参与者,大学教师的学术身份定位与科学研究公共性正不断呈现出新的发展态势。在推动科学研究发展与原始创新、主动承担社会责任的同时,也在时刻
目前,我国正积极推动“一带一路”战略,随之而来的是冻土地区的工程建设逐渐增加。冻土工程问题的一个突出的特点是存在冻融现象,受到气候和人类活动的影响,在季节性冻土或多
在获取和传输的过程中,由于受到各种因素如传感器元件故障,模数转换过程中的比特差错等的影响,图像会被噪声所污染。被污染的图像会严重影响边缘检测、图像分割以及物体识别
信息技术的高速发展使得计算机系统在人类生活中占据了越来越重要的地位,数字化、信息化以及网络化成为了本世纪的主要特征。信息需求的持续增长一方面为政府、公司以及学术
由于我国现状农田水肥利用率不高,灌溉水有效利用系数仅为0.548,化肥利用率不到30%,大量的水肥流失,因此,开展灌水施肥方式的研究对缓解我国水资源短缺、面源污染有着重要的
饱和软黏土在我国的沿海、沿江、沿湖地区分布广泛。软黏土地基具有压缩性高、渗透性低、流变特性显著等特点,造成其固结变形持续时间长,所以其固结理论的计算在土木工程设计
建筑工业化是建筑业发展的趋势,装配式结构作为建筑工业化的重要组成部分得到了大力的发展。为了实现核心钢管混凝土(CSTRC)柱的工业化生产和装配式建造,本文将装配式混凝土
随着新课改的不断推进,越来越多的新型教育形式也逐渐被运用到具体的小学教育当中。赏识教育虽是一种新型教育方式,但随着赏识教育在小学语文教学中的具体实践,却受到了广大
近代计算机技术的进步大大推动了图像处理技术的研究与发展,吸引了大量研究学者投身图像处理这一研究领域。由于图像的质量会严重影响到图像处理的结果,因此图像去噪是一个基本且重要的研究课题。图像通常含有丰富的纹理信息,沿着纹理垂直方向的灰度值存在一个突变的过程,这种灰度突变使图像具有了非平稳信号特征,因此可以用非平稳信号分析方法对图像进行处理。经验模式分解方法(Empirical Mode Decompo