论文部分内容阅读
词嵌入是指将词语表示成低维向量,并能在向量空间上反映出词语间关系的技术。词嵌入技术不仅能运用于自然语言处理领域,也能运用于推荐广告等其它领域。在这些领域的诸多任务中,一般采用词嵌入技术预训练词向量并将其作为下游模型的输入。传统的词嵌入算法无论是基于共现矩阵,还是基于神经网络,在可解释性上都有所欠缺。其次由于词嵌入可运用于推荐广告等领域,工业界要求词嵌入技术能学习出更多的词语关系信息以促进这些任务的效果提升进而为企业带来更大收益。词嵌入的理论基础是Harris等提出的词语分布假说,即“上下文相似的词,其语义也越相似”。该假说反映了词语间的关系信息由其上下文词的近似程度表示。若追本溯源,基于词语分布假说,深入研究词语与其上下文的关系,可能是提升词嵌入技术可解释性与学习能力的有效途径。受其启发,本文从词语分布假说出发,开展了词语和上下文间关系的相关研究,主要工作在于:(1)针对词嵌入方法的可解释性,结合词语分布假说理论与传统词嵌入获取词向量的方法,提出了基于关系能量最大化的词嵌入方法。首先,根据“上下文越相似的词,其语义也越相似”理论,将整个语料库的所有词语关系用其对应上下文表示,建立关系的能量公式。其次,采用极大似然估计,梯度更新每个词语的对应词向量。最后,将公式变换,使极大似然估计的过程转化为构建能量矩阵并进行矩阵分解的过程。文中提出的算法在获取词向量的过程中反映了词语分布假说的理论,可解释性更强。使用深度学习常用数据集Text8作为语料库,本文的算法相对于传统矩阵分解算法在word analogy任务上效果更好,而word similarity任务上,本方法也能和Word2vec效果相当。(2)针对词嵌入技术在推荐广告领域的运用效果,本文将基于关系能量最大化的词嵌入方法应用于推荐广告领域,使用阿里巴巴算法竞赛中的搜索广告点击与转化的数据进行实验。首先,建立转化率预估模型,从数据中构建丰富的特征使模型的预测效果达到较优水准。接着,将商品和属性当作词语和上下文构建能量公式并进行矩阵分解获取商品的低维向量表示。最后,将商品的向量作为特征加入转化率预估模型来衡量模型效果。通过实验,本方法可以进一步降低转化率预估模型的Logloss,并相对于传统词嵌入技术能取得更好的效果。