【摘 要】
:
随着互联网时代的发展,人们在生活中会使用到很多软件产品。各种网站的用户量都有了较大的增长,人们在使用过程中产生了庞大的web文本信息。在大量的web文本信息中可能会有一些很有价值的信息。由于不同的人有不同的写作风格,同一种意思有不同的表达方式;并且自然语言也是多样化的,因此在文本数据中经常出现一词多义的现象。机器处理大量的文本数据时,歧义词是机器对自然语言理解的一个阻碍。对于词义消歧这一问题,不少
论文部分内容阅读
随着互联网时代的发展,人们在生活中会使用到很多软件产品。各种网站的用户量都有了较大的增长,人们在使用过程中产生了庞大的web文本信息。在大量的web文本信息中可能会有一些很有价值的信息。由于不同的人有不同的写作风格,同一种意思有不同的表达方式;并且自然语言也是多样化的,因此在文本数据中经常出现一词多义的现象。机器处理大量的文本数据时,歧义词是机器对自然语言理解的一个阻碍。对于词义消歧这一问题,不少研究者尝试使用不同的数据源和算法。本文主要解决在文本中出现的一词多义的现象。使用维基百科数据作为知识库,根据歧义词以及上下文信息,从知识库中找到实体对歧义词进行解释。在解决一词多义的问题上,本文主要提出一种将多种算法集成训练的模型。在本文的实体链接方法中,主要是使用提及词、提及词上下文和提及词文档信息来生成提及词的表示向量。实体表示向量的生成主要使用实体名称以及实体文档信息。在实体链接中,通过衡量提及词表示向量和实体表示向量之间的相似度来完成实体链接任务。本文中在衡量文本的相似度时,实验使用编辑距离算法和向量空间模型。由于向量空间模型的维度太大,数据比较稀疏。接着使用聚类模型对文本数据进行聚类。主要使用了k-means算法和凝聚层次聚类算法。使用聚类模型降低了提及词表示向量和实体表示向量的维度。聚类模型在一定程度上提高了实验模型。对文本进行聚类,不仅解决了数据稀疏的问题,在一定程度上得到了文本基于类别的表示。本文最后使用神经网络的方法,并将前面的方法结合到一起,使用不同粒度的提及相关信息。本文使用doc2vec和word2vec模型分别对文档和词向量化。从模型的测试结果来看,使多种方法和使用不同粒度提及词信息可以在一定程度上提升实体链接模型。
其他文献
近日播出的电视剧《老中医》引起了观众热议。虽然批评与表扬的声音兼而有之,但尝试找出自己独特的“卖点”无疑是此类正剧作品吸引观众的法宝。$$《老中医》的剧情发生在民国
在中国与东南亚华侨华人关系、侨乡研究等诸多领域,华侨参与侨乡经济建设是海内外学界关注的重要课题之一。有关该课题的研究,学者们主要侧重于侨汇以及华侨对国内企业的投资
通过分析Surfer数据格式,编制了地形改正程序,可将地形校正到原始的假设平面观测断面图上,使观测面以实际高程的曲面形式表现出来,以达到更接近实际的效果。断面图地形改正是表征意义上的地形改正,地改以后可方便客观地观察异常的空间形态以及各异常的相互空间关系,同时也使断面图更美观,更具有实际指示意义。
为了在减少化学氮肥施用的同时仍能够满足粮食需求,可持续发展农业越来越受到关注。蚯蚓能通过促进氮素矿化增加植物产量,同时改善土壤理化性质、土壤生物群落和功能。蚯蚓划
长期以来,学术界对二程思想已进行了广泛、深入的研究,关于其贞节观、女性观等问题讨论亦夥。但总体而言,研究者在阐述贞节观、女性观等问题时,往往偏重就女性论女性,即便偶
伪谱法求解波动方程的常规算法,运算量大,运算时间长。笔者综合提高伪谱法计算精度和效率的方法,改进了常规计算流程里计算傅氏变换和反变换中需要多次使用计算的常量,把这些常量
利用自然界唯一含有苯环结构的可再生绿色资源木质素制备芳香族小分子化学品可降低现代工业对石油化工产品的依赖性,缓解因为石油资源枯竭可能造成的资源短缺等困境。木质素
采用双线性对原理,提出无需随机预言模型下可证明安全的基于身份门限的解密方案,解决了当前基于身份门限解密方案需要依赖随机预言模型,才能证明其安全性或其安全性归约松散
通过吸附过程中的质量平衡实验和红外扫描分析,揭示板栗内皮吸附重金属的机理.质量平衡实验表明,板栗内皮吸附重金属离子存在明显的离子交换过程,在吸附重金属离子和溶液中氢