基于词嵌入的词义消歧方法的研究

来源 :昆明理工大学 | 被引量 : 4次 | 上传用户:sz_ydz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧(Word Sense Disambiguation)是指釆用一定的方法或算法,在给定的上下文中自动确定歧义词的正确词义的任务。词义消歧是自然语言处理技术中一项基础性的技术,对于文本挖掘、自动文摘、机器翻译、以及信息检索等众多自然语言处理技术的性能提高有着重要影响。因此提高词义消歧的性能也成为人们的迫切需求。Lesk算法是最早的释义重叠法,也是经典的词义消歧算法之一。近年来,许多研究者提出了基于Lesk算法的词义消歧方法。但是,众多研究在使用上下文信息时,忽略了上下文中歧义词周围的词对消歧的影响。Lesk算法通过计算上下文与词典中歧义词的各个义项之间词汇重叠的个数来得到歧义词的最佳含义,但歧义词在词典中的义项,通常比较简短,使得词汇重叠的个数较小,甚至没有重叠。针对这个问题,我们通过使用向量表示上下文以及义项来解决:计算上下文以及义项的相似度,取相似度最高的义项为歧义词的消歧结果。在此基础之上考虑到,歧义词中各个义项的使用频率是不同的。因此,本文考虑了上下文中的词与歧义词之间的距离对词义消歧的影响以及各个义项的使用分布频率对词义消歧的影响。本文的研究内容主要由以下几个部分组成:建立了一种基于Word2vec的词义消歧的基本框架。通过维基百科语料集进行了词向量的训练,基于训练的词向量实现了扁平表示的上下文向量和义项向量的生成,并结合基于WordNet获取的义项分布频率建立义项综合分值计算模型。基于Senseval-3数据集上的扩展实验表明本文消歧方法的有效性。建立了一种融合了距离权重以及义项分布频率的词义消歧方法。由于扁平表示法生成的词向量并未考虑上下文中的词与歧义词之间的距离对词义消歧的影响。本文在考虑词与歧义词之间的距离的影响时,进一步融合了上下文中的词与歧义词的距离权重,研究了基于高斯核函数、拉普拉斯核函数、柯西核函数这三种权重函数生成的上下文向量对消歧效果的影响。此外,除Word2vec生成的词向量之外,还研究了Glove生成的词向量对消歧效果的影响。实验结果表明,高斯核函数在捕捉上下文的距离权值表现较好且基于Glove训练的词向量具有更好的消歧效果。
其他文献
以资源开采典型地区——陕西省志丹县为例,通过实地走访、抽样调查和统计分析,从经济、社会、环境和宏观调控方面展开调查分析,深入探究资源开采型地区耕地撂荒现象的原因.根
利用颗粒和液滴间的静电吸引力可以大幅度提高传统湿式重力喷淋除尘器的除尘性能。着重分析液滴荷电而颗粒不荷电的湿式除尘器的工作状况,阐述了布朗扩散、拦截、惯性碰撞和静
提出了一种具有可变相位累加器电路结构的新型全数字锁相环。采用EDA技术完成了对该系统的设计,利用ModelSim软件对所设计的电路进行了系统仿真实验,并进行了硬件实验验证。
解决农村耕地撂荒现象的思考蒋廷科地处三峡库区腹心的奉节县,是一个市定贫困县,人均耕地不足1亩。据不完全统计,近几年来,全县举家外迁12900户,39370人,撂荒耕地40660亩,分别占全县总户数、农业总人
为了解高校研究生的婚育意愿,在2002年9月对武汉某高校研究生婚育意愿调查的基础上,从性别、年龄、文化程度、婚姻状况等4个方面,对表达婚育意愿的理想婚龄、期望子女数、期
通过假设水体的漫射衰减系数和单次散射反照率等光学参数,运用蒙特卡罗方法模拟了浮标浮体阴影及其安装的仪器自阴影对水下光辐射测量的影响.结果表明仪器自阴影误差随仪器直
在常用的历元地心天球坐标系中研究和处理近地卫星的轨道问题,就必须考虑由于地球赤道面摆动所引起的坐标系附加摄动,正因为如此,给实际工作带来一些麻烦.关于这一问题,曾提出了一
黑龙江省幅员辽阔,土地肥沃,粮食生产所占比重居全国之首。土地质量和耕地保护利用程度决定了粮食作物的产量和等级。本文在实证调研基础上,研究和分析了黑龙江省耕地保护主
【目的】探讨烤烟成熟期淀粉积累状况与淀粉代谢关键酶活性及其基因表达的关系,明确烤烟成熟期淀粉代谢的分子调控机制,为优质烟叶生产提供理论依据。【方法】以不同淀粉积累
海水中可溶性的营养盐浓度是海洋监测的常规项目之一;大洋水体中的营养盐含量很低,使用传统的分光光度计难于定量测量。文章基于液芯波导长光程技术,设计了高灵敏度的痕量海