基于形态学信息与语义字典的词向量提升

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:WZY86512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前传统词向量模型只能捕捉词层面的语义信息,忽视了单词内部语义信息以及无法有效区分反义词的不足,本文凝练出两个科学问题:1、如何将单词形态学信息融入词向量训练过程中,以此提升词向量的语义相似性以及形态相似性;2、如何提升词向量区分反义词的能力。针对科学问题1,本文以英文为例,将英文单词中的前缀、后缀、词根等形态学信息融入到词向量训练过程中,并提出两种隐式词向量提升模型:均衡模型和相似度模型。与相关工作对比,本文提出的模型具有较大不同,主要体现在:相关工作普遍直接利用单词的词素信息去提升词向量,而本文则利用词素在字典中的解释对单词进行建模。该方法的优点在于其不但可以很好的提高单词的语义相似性,同时能很大程度上提升单词的形态相似性。本文在词意关联检测、句法类比和N近邻单词实验上对均衡模型和相似度模型进行了测试。实验结果表明本文提出的隐式模型在所有任务上均取得最优结果。参数分析结果表明:在隐式模型的词向量空间中,形态相似的单词不但距离彼此较近,而且也都分布在其词素意义周边。此外,隐式模型具有补充语义的能力,其在小文本上取得了和基准模型在大文本上相当的表现。因此,隐式模型在处理资源匮乏的语言时具有优势。针对科学问题2,本文基于外部语义字典,提出一种词向量纠正模型LWET。该模型利用字典中单词的近义关系和反义关系来调整词向量在空间中的分布,使得词向量区分反义词的能力得到增强。模型的主要目标是使近义词离目标词最近,反义词离目标词最远,无关词位于近义词和反义词之间充当间隔。为降低模型求解的复杂度,本文提出两种近似算法,包括正采样算法和类层次softmax算法。其中正采样算法时间复杂度最低,类层次softmax算法复杂度略高,但效果更好。本文在反义词识别、正、反义词消歧和词意关联检测实验上对LWET进行了测试。其中,反义词识别和正、反义词消歧主要用于检测词向量区分反义词的能力,实验结果表明经由LWET调整,词向量能有效区分单词间的反义关系。词意关联检测实验结果显示,LWET在调整词向量空间分布时,不会对原有词向量的语义结构造成破坏。
其他文献
现阶段各大广电媒体正在积极进行融媒体云平台的建设,但大部分媒体内容还在之前的系统中进行生产和储存。为了更好地利用现有的内容资源,为融媒体发展服务,需要依托现有的技
稳定自由基如2,2,6,6-四甲基哌啶氮氧自由基(TEMPO)具有独特的稳定性和顺磁特征,特别是其顺磁特征对溶剂的极性、温度、粘度、空间位阻、构象和构型等环境具有很强的依赖性,因
影像引导下微波消融微创治疗肝癌,近几年在国内外发展迅速,己逐渐成为肝癌非手术治疗中的一种常用手段[1-2],但微波消融治疗肺肿瘤尚少报道,有待进一步研究。参照射频消融治
<正> 毫无疑问,黄贯中是一名出色的音乐人,以前在 beyond的时候是,现在更是。这绝不是我个人的观点。在目前唱片行业整体不景气的大前提下,更多人在瞄准广大的内地市场。其中
<正>2007年2月14日情人节这天,天津体育中心叶世荣再现摇滚激情。这是BEYOND乐队解散后,在内地举办的第二次个人演唱会。叶世荣曾被誉为BEYOND乐队的传奇鼓手,在BEYOND乐队风
期刊
植物光诱导延迟荧光(Delayed Fluorescence, DF)是植物光合器官在停止光照后的一种超微弱长期发光现象,它的产生包含着能量的吸收、转换、存储和重发光过程。由于延迟荧光来
总包单位与分包单位合的同外结算包括:工程量调整、索赔、调价、奖励、总包单位使用分包单位的机械、材料、点工的签单等合同外结算项目,必须按照规定办理计量。针对不同的合
由于受雷达天线扫描的限制,不同的雷达在一次扫描周期中具有不同的回波数量,而回波数量是影响提取目标调制特征的原因之一,调制特征提取的好坏将直接影响最后的识别结果。本
对于散文“形散神聚”的基本特点,现行的写作学大多离开写作主体的心理视角,从章法和文法这些形式层面子以阐释。本文以写作主体的心理活动为内在依据,具体论述基于写作意图
<正>7月17日,爱奇艺在京举办"爱奇艺·互联网·新电影"电影战略发布会,正式宣布成立爱奇艺影业公司并推出"爱7.1电影大计划"。知名艺人姚晨、惠英红,知名导演王岳伦,第29届香