酷应用

ICML 最佳论文提名论文：理解词嵌入类比行为新方式

百家作者：机器之心 2019-06-25 07:11:54

选自arxiv

作者：Carl Allen、Timothy Hospedales

机器之心编译

参与：王子嘉、张倩

前不久，ICML大会在美国举办。大会放出了最佳论文等奖项，还有7篇最佳论文荣誉提名论文，本文便是其中的一篇。在这篇论文中，来自爱丁堡大学的研究者提出了一种解释词嵌入类比（如「女人之于王后就像男人之于国王」）的新方式，推导出了一种意译（paraphrasing）的概率定义，即「w_x之于w_y」的数学描述。他们通过这些概念证明了W2V型嵌入之间存在线性关系。

word2vec（W2V）这类神经网络生成的词嵌入以其近似线性的特性而闻名，比如「女人之于王后就像男人之于国王」这种类比嵌入，描述了一种近似平行四边形的结构。

有趣的是，这个特性并不是从训练中得来的。对此现象也有几种解释，但每一种解释都引入了不太合理的假设。

研究者推导出一种意译（paraphrasing）的概率定义，即「w_x 之于 w_y」的数学描述，并将其称为单词转换（word transformation）。他们通过这些概念证明了 W2V 型嵌入之间存在线性关系，这些关系是类比的基础，并确定了显式误差项。

研究者首先展示了嵌入在因子分解点互信息（PMI）的情况下，它的意译决定了嵌入的线性组合何时等于另一个单词的线性组合。例如，如果 king 和 {man, royal} 是语义等价的，就说 king 可以意译为 man 和 royal。

我们可以用邻近单词的概率分布来衡量这种等价性，这印证了一句弗斯的一句格言——「你应该通过语境来理解一个单词」。然后，研究者提出意译可以看作是基于加减法的单词转换（例如 man 加 royal 变成 king）。

最后，研究者通过将类比「w_a 之于 w_a ^?就像 w_b 之于 w_b ^?」解释为「w_a 之于 w_a ^?和 w_b 之于 w_b ^?」共享参数的单词转换，证明了本文中的观点。图 4 展示了类比中词嵌入的线性关系。

图 1：类比「man is to king as woman is to ..?」的词嵌入的相对位置。其中最接近 w_K - w_M + w_W 线性组合的词嵌入是 queen。研究者解释了发生这种情况的原因及它们之间的区别。

本文的主要贡献是:

得出意译的概率定义，并证明意译控制一个单词嵌入（PMIderived）与任意单词之和的关系;
说明如何泛化意译，并利用「w_x 之于 w_x^?」的数学表达式将其解释为从一个单词到另一个单词的转换，;
首次严谨地证明了类比词嵌入之间的线性关系，包括显式的、可解释的误差项;
展示了这些关系如何在 PMI 向量之间实现，这些关系在因式分解了 PMI 矩阵的词嵌入以及类似的分解（如 W2V 和 Glove 等）中也都适用。

背景知识

Levy & Goldberg（2014b）发现，如果满足以下条件，则 W2V 的目标函数是最优的：

其中，?被称为点态互信息。在矩阵形式中，这等同于：

其中，?Glove（Pennington et al., 2014）拥有与 W2V 相同的架构。它的嵌入具有可比性，并具有线性类比结构。对于偏差 b_i、b_j 和归一化常数 Z，Glove 的损失函数在以下等式成立时是最优的：

由于偏差的存在，(3) 泛化 (1)，使得 Glove 拥有比 W2V 更大的灵活性以及可能更加广泛的解。然而，本文将要展示的是，是 PMI 指标的因式分解导致了嵌入中的线性类比结构，正如 W2V (1) 中实现的那样。研究者推测，支持 Glove 嵌入类比结构的理论基础也是相同的，但可能由于其增加的灵活性而更加薄弱。

初步研究

研究者考虑了与词嵌入和共现统计量之间关系相关的方面 (1,2)，这与类比嵌入之间的线性结构相关:

偏移的影响?

作为一个超参数，它不反映任何词属性，对 (1) 中出现的 k 的嵌入的影响也是随机的。将 k 的典型值与常见的 PMI 值进行比较（图 2）后可以发现，偏移（shift）（- log k）可能也很重要。

此外，可以观察到，为了避免偏移的直接影响而对 W2V 算法的调整提高了嵌入的性能 (Le, 2017)。因此，这种偏移显然是 W2V 算法的有害产物，除非另有说明，否则尽量还是使用对未平移 PMI 矩阵进行分解的嵌入：

图 2： 从文本中随机抽取的单词对的 PMI 直方图（w_i, c_j，蓝色）与相同单词重叠（红色，缩放）的 PMI 直方图 (w_i, c_i)。偏移使用 k 的典型值。

重构误差

在实践中，(2) 和 (4) 仅近似成立，因为相对于分解矩阵 M 是秩约束的（秩 r < < d < n)，如 (4) 中的 M=PMI。因此，从 W 和 C 中重构 M 的元素容易产生重构误差。然而，我们始终依赖于 R^n 中的线性关系，只要求它们在「向下」投射到 R^d（嵌入空间）时尽可能不失真。为确保这一点，研究者假设: