【摘 要】
:
单词嵌入是指运用机器学习的方法,将位于高维离散空间(维数为词典单词数目)中的每个单词映射到低维连续空间的实数向量的技术。在很多文本处理的任务中,单词嵌入提供了更好的
【机 构】
:
中国科学技术大学计算机科学与技术系,南开大学计算机科学与信息安全系,微软亚洲研究院
论文部分内容阅读
单词嵌入是指运用机器学习的方法,将位于高维离散空间(维数为词典单词数目)中的每个单词映射到低维连续空间的实数向量的技术。在很多文本处理的任务中,单词嵌入提供了更好的语义级别的单词特征表示,从而为文本处理任务带来了诸多便利。同时,大数据时代海量的未标注文本数据,以及以深度学习为代表的机器学习技术的发展使高效的单词嵌入技术成为可能。本文将给出单词嵌入的定义以及实际意义,同时将综述目前单词嵌入技术的几种典型方法,包括基于神经网络的方法、基于受限玻尔兹曼机的方法以及基于单词与上下文共生矩阵分解的方法。本文将详细介绍不同模型的数学定义、物理意义以及训练方法,并给出他们之间的比较。
其他文献
目的:研究乳腺癌术后患者血液凝血功能的变化。方法:随机选出50名(ASAⅠ-Ⅱ级)乳腺癌患者,分别测定手术前后凝血系列(FIB,TT,PT,APTT,ALT)。结果:乳腺癌患者术后FIB明显高于术前(P〈0
大数据时代,大规模数据往往由多个数据源组成并服务于多个数据驱动型应用程序。由于数据源的可信度不同,不同数据源往往会产生数据冲突,使得难以判断哪些信息是真实的。近年
瑞雷波勘探具有分辨率高、抗干扰能力强、受场地影响小、经济、快速且无损等优点,现已被广泛应用于众多领域中,而瑞雷波频散曲线反演则是其中的核心。瑞雷波频散曲线反演是利用瑞雷波的频散特性来获取浅地表层状介质结构信息,现阶段反演方法主要分为局部线性化反演以及非线性全局优化反演两种。本文对一种新型全局优化算法——人工蜂群算法进行适当的改进,将其用于反演瑞雷波频散曲线,以获取地下横波速度以及地层厚度。传统蜂群
目的检测血浆可溶性HLA-G(s HLA-G)及胃蛋白酶原PGI、PGII胃泌素-17(G-17)在胃癌及相关胃病患者外周血中的表达水平,评估s HLA-G与PGR(PGI/PGII)、GPR(G-17/PGI)联合检测在胃
目的:探讨MMP-7、MMP-9在结直肠癌腹腔微转移中的作用以及相关性。方法:收集98例结直肠癌患者手术中腹腔冲洗液,进行CEA、CK20免疫细胞化学染色确定腹腔微转移。使用组织阵列仪
近年来,随着我国传媒行业的迅猛发展,传媒企业爆发式增长,传媒企业员工对企业产生的影响也愈加重要。本文将着眼于具体传媒企业,以其员工作为目标,把握角色模糊对员工自我效能感的影响机理,进而为企业提出相应的管理建议。根据整体思维框架,首先梳理国内外研究整体现状,并对重要概念进行相关界定阐释,针对国内外知名学者在该领域的突出理论进行归纳综述。依据理论支撑,探轶变量间相关关系;结合第二章理论部分,敲定模型结