XLNET原理详解

论文原文地址arxiv.orgGitHub论文源码下载github.com

0. XLNet概述

XLNet是一个语言模型。和ELMO，GPT，BERT一脉相承，同时借鉴了Transformer-XL，故称XLNet（XL含义源于衣服尺码，意思是模型横向更宽）；并提出一些新方法改善了Bert存在的问题，目前取得了全面超越Bert的成果。和Bert一样，XLNet也分为Pre-train和Fine-tune两阶段；并且参数规模比Bert更大。

1. AR(autoregressive) vs AE(autoencoding)

AR译为自回归，意思是对于序列 $x=\left( x_{1}…x_{T}\right)$ ,根据 $\left( x_{1}…x_{i-1}\right)$ 预测 $x_{i}$ 。GPT，ELMO都属于AR语言模型。

AE译为自编码，意思是将序列 $x=\left( x_{1}…x_{T}\right)$ 编码为 $y=\left( y_{1}…y_{T}\right)$ 。Bert属于AE语言模型。

AR的缺点在于序列要么从前往后，要么从后往前，无法将上文和下文信息完全结合起来(ELMO只是将两个方向concat)。AE模型的缺点在于Pre-train阶段可能需要引入 $\left[ mask \right]$ 标记（Bert模型），而 $\left[ mask \right]$ 会带来一系列问题。

2. Bert的痛点

得益于同时使用上文和下文信息，Bert取得了比GPT更好的效果。但是Bert需为此在Pre-train阶段引入 $\left[ mask \right]$ 标记，通过上下文来预测这些被mask的token。

引入 $\left[ mask \right]$ 标记带来一下两个问题：

2.1 独立性假设：Bert假设不同[mask]相互独立，忽略了[mask]之间的相关性

设被mask的token集合为 $\bar{x}$ ，整个序列为 $\tilde{x}$ ，Bert的训练目标是最大化联合概率分布 $p\left( \bar{x} | \tilde{x}\right)$ 。在计算此概率分布的过程中，Bert会假设所有被mask的token（ $\bar{x}$ 中的token）相互之间都是独立的，这样就丢失了不同masked token之间的关联。

论文中举了一例，现有序列 $\left[ New, York, is, a, city \right]$ ，

Bert如果随机选择了 $New$ 和 $York$ 进行mask并预测，则mask后序列变为

$\left[\color{red}{\left[ mask \right]}, \color{red}{\left[ mask \right]}, is, a, city \right]$

此时应该优化的目标是:

$\mathcal{J}=\log{p(New\ York\ |\ is\ a\ city)}$

但实际上bert的优化目标是:

$\mathcal{J}_{BERT}=\log{p(New\ |\ is\ a\ city)}+\log{p(York\ |\ is\ a\ city)}$

若要满足 $\mathcal{J}=\mathcal{J}_{BERT}$ , 则有

$p(New\ York\ |\ is\ a\ city)=p(New\ |\ is\ a\ city)\cdot p(York\ |\ is\ a\ city)$

即New和York相互独立。但显然它们不太独立，如果前面出现了“New”，那么后面出现“York”的概率理应大很多。

2.2 Pre-train阶段和Fine-tune阶段数据分布不一致

Bert在Pre-train阶段需要对语料使用 $\left[ mask \right]$ 标记；但在Fine-tune阶段，所用语料中并没有 $\left[ mask \right]$ 标记。这导致两个阶段的训练数据分布不一致，影响Fine-tune效果。

3. XLNet如何解决bert的缺陷

如果有一种模型，既能结合上文和下文，又能避免bert由于 $\left[ mask \right]$ 导致的独立性和数据分布一致性问题，就两全其美了。为此，XLNet使用一系列方法，构造出了一种能够结合上文和下文的AR模型。

排列组合获取上下文信息

为了在不改变AR模型基本结构的条件下引入下文信息，XLNet使用了对输入序列“排列组合”的方法，把下文信息排到前面，赋予了单向模型感知下文的能力。例如，现有序列 $\left[ 1\rightarrow2\rightarrow3\rightarrow4 \right]$ ，只需改变其顺序，变换出 $\left[ 2\rightarrow4\rightarrow3\rightarrow1 \right]$ 、 $\left[ 1\rightarrow4\rightarrow2\rightarrow3 \right]$ 、 $\left[ 4\rightarrow3\rightarrow1\rightarrow2 \right]$ 等序列，即可让3看到4，2看到3和4，1看到2、3、4。下图为不同排列方式下，位置"3"所能关注的位置示意图（只能关注序列中在它之前的部分）：

将上述过程形式化，设 $Z_{T}$ 为长度为 $T$ 的序列 $\left[ 1,…,T \right]$ 的所有可能的排列， $\bm{z}$ 为其中一种排列方式， $\bm{z}\in Z_{T}$ ， $z_{t}$ 为第其中 $t$ 个元素， $\bm{z}_{<t}$ 为前 $t-1$ 个元素。优化目标为 :

$\max_{\theta}{\ \ E_{\bm{z}\sim Z_{T}}\left[ \sum_{t=1}^{T}{\log{p_{\theta}{\left( x_{z_{t}}|\bm{x}_{\bm{z}_{<t}} \right)}}} \right]}$

仍以序列 $\left[ New, York, is, a, city \right]$ 为例：

$\mathcal{J}_{XLNet}=\log{p(New\ |\ is\ a\ city)}+\log{p(York\ |\ \color{red}{New},is\ a\ city)}$

这样，任何一个元素都可因排列组合方式的变换而成为序列最后一个元素 $z_{t}$ ，从而能够看到所有上下文信息。

注意，排列组合并不是真的使用原始序列生成新的排列组合序列，并抽样产生新的增强数据集来完成的，因为这种做法仍然会造成Pre-train和Fine-tune的语料分布不一致。XLNet的做法是在计算attention时mask掉对应位置，不同的mask对应不同的序列。后文将详述此法。

双流注意力

上述模型中，设 $h_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}} \right)}$ 为 $\bm{X}_{\bm{Z}_{<t}}$ 的hidden表示，则使用softmax计算next-token的分布时有：

$p_{\theta}{\left( X_{z_{t}}=x|\bm{x}_{\bm{z}_{<t}} \right)}=\frac{exp\left( e\left( x \right)_{}^{\top}h_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}} \right)} \right)}{\sum_{x'}{exp\left( e\left( x' \right)_{}^{\top}h_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}} \right)} \right)}}$

由上式可知计算目标概率分布时， $z_{t}$ 根本没有出现，这就丢失了 $z_{t}$ 代表的原始序列中位置的信息。也就是说 $X_{z_{t}}$ 处于句子任何位置都一样。

形式化表述，设 $Z_{<t}^{\left( 1 \right)}=Z_{<t}^{\left( 2 \right)}=Z_{<t}$ ，但是 $z_{t}^{\left( 1 \right)}=i\ne j=z_{t}^{\left( 2 \right)}$ ，

此时有 $\underbrace{p_{\theta}{\left( X_{i}=x|\bm{x}_{\bm{z}_{<t}} \right)}}_{z_t^{\left( 1 \right)}=i,\ \bm{z}_{<t}^{\left( 1 \right)}=\bm{z}_{<t}}=\underbrace{p_{\theta}{\left( X_{j}=x|\bm{x}_{\bm{z}_{<t}} \right)}}_{z_t^{\left( 2 \right)}=j,\ \bm{z}_{<t}^{\left( 2 \right)}=\bm{z}_{<t}}=\frac{exp\left( e\left( x \right)_{}^{\top}h_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}} \right)} \right)}{\sum_{x'}{exp\left( e\left( x' \right)_{}^{\top}h_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}} \right)} \right)}}$ ，（原文此公式应该是有小笔误，将一个2写成1）显然和ground-truth冲突。

举个例子，有序列 [暴雨，造成，大面积，晚点] ，产生排列组合序列 [暴雨，造成，大面积] 和 [暴雨，造成，晚点] ，则 $Z_{<t}$ 就是共同的前置序列 [暴雨，造成]， $z_{t}^{\left( 1 \right)}$ 就是"大面积"， $z_{t}^{\left( 2 \right)}$ 就是"晚点"。它们 $p_{\theta}$ 相等，也就是"大面积"和"晚点"出现的概率等价，不合逻辑。

注意，即使像Bert那样在输入中加入位置向量，仍无法避免 $z_{t}$ 处位置信息缺失，原因如下图：

要解决这个问题，就必须引入位置信息 $z_{t}$ ，然后将 $h_{\theta}$ 变为 $g_{\theta}$ ，调整后的概率分布的计算公式如下：

$p_{\theta}{\left( X_{z_{t}}=x|\bm{x}_{\bm{z}_{<t}} \right)}=\frac{exp\left( e\left( x \right)_{}^{\top}g_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}},\color{red}{z_{t}} \right)} \right)}{\sum_{x'}{exp\left( e\left( x' \right)_{}^{\top}g_{\theta}{\left( \bm{X}_{\bm{Z}_{<t}},\color{red}{z_{t}} \right)} \right)}}$

XLnet为 $h_{\theta}$ 和 $g_{\theta}$ 分别开辟一条attention流。因此称为双流attention。论文中给出的原理图示如下：

(a): 内容流attention和标准的self-attention一样。(b): Query流attention, 无法访问目标位置的内容信息。 (c): 整个双流attention。

$h$ 和 $g$ 的计算公式如下：

$g_{z_{t}}^{(m)} \leftarrow \text { Attention }\left(\mathrm{Q}=g_{z_{t}}^{(m-1)}, \mathrm{KV}=\mathbf{h}_{\color{red}{\mathbf{z}_{<t}}}^{(m-1)} ; \theta\right)$

$h_{z_{t}}^{(m)} \leftarrow \text { Attention }\left(\mathrm{Q}=h_{z_{t}}^{(m-1)}, \mathrm{KV}=\mathbf{h}_{\color{red}{\mathbf{z}_{\leq t}}}^{(m-1)} ; \theta\right)$

注意，一个是 $z_{< t}$ ，一个是 $z_{\leq t}$ 。在 $g_{z_{t}}^{(m)}$ 中，m代表编码器层数， $g_{z_{t}}^{(0)}=w$ ， $h_{z_{t}}^{(0)}=e\left( x_t \right)$ 。 $w$ 是随机初始化的向量(位置向量？)， $e\left( x_t \right)$ 是随机初始化的词向量。

另外，你可能会发现在计算 $g_1$ 时，由于 $t=1$ ， $\bm{z}_{<t}$ 为空。如下图：

难道这时候所有attention权重都为0， $g_1$ 计算出来也是0向量？当然不是。因为XLNet还有memory机制和残差连接（与transformer编码器相同），保证 $g_1$ 不是0向量。

4. XLNet如何降低训练开销

用了“排列组合”技术后，理论上每个原始序列的每种排列组合序列里的每一个位置 $\bm{z}_t$ 都可以作为target来训练。但是这样搞训练开销太大，毕竟Bert只在更少的语料上挑了原始序列中15%的位置，普通玩家就已经玩不转了。XLNet的解决办法是只把一部分位置作为target进行训练，那么如何选取这一部分位置呢？XLNet这里是把一个序列 $\bm{z}$ 划分为两段，只对后一段进行训练。

例如 $\left[ 1\rightarrow2\rightarrow3\rightarrow4 \right]$ 只训练3和4，不训练1和2。

具体地，就是取一个位置 $c$ ，满足 $c<t$ ， $\bm{z}_{\leq c}$ 不作为target， $\bm{z}_{>c}$ 作为target进行训练。关于 $c$ 值的选取，作者给出了一个超参 $K$ ，满足 $\left| \bm{z} \right| / \left( \left| \bm{z} \right|-c \right)\approx K$ ，作者设置 $K=6$ 。

优化目标变为：

$\max _{\theta}\ \ \ \mathbb{E}_{\mathbf{z} \sim \mathcal{Z}_{T}}\left[\log p_{\theta}\left(\mathbf{x}_{\mathbf{Z}_{>c}} | \mathbf{x}_{\mathbf{z} \leq c}\right)\right]=\mathbb{E}_{\mathbf{z} \sim \mathcal{Z}_{T}}\left[\sum_{t=c+1}^{|\mathbf{z}|} \log p_{\theta}\left(x_{z_{t}} | \mathbf{x}_{\mathbf{z}_{<t}}\right)\right]$

5. Transformer-XL与memory

在实际应用中，遇到超长序列（篇章，对话等），通常需要拆成sentence级别的短序列，这样割裂了短序列之间的联系。对于这个问题，Transformer-XL的做法是把上一个短序列各层输入的一部分作为memory缓存，和当前各层的输入拼接，以获取上文的信息。

具体地，设长序列为 $\left[ 1…T…2T \right]$ ，分为前序列 $\tilde{\bm{z}}=\left[ 1…T \right]$ ，后序列 $\bm{z}=\left[ T…2T \right]$ 。加入memory机制后， $h$ 的计算公式变为：

$h_{z_{t}}^{(m)} \leftarrow \text { Attention }\left(\mathrm{Q}=h_{z_{t}}^{(m-1)}, \mathrm{KV}=\left[\tilde{\mathrm{h}}^{(m-1)}, \mathrm{h}_{\mathrm{z}_{ \leq t}}^{(m-1)}\right] ; \theta\right)$

attention mask也变为如下模样（自己理解的，可能有误）：

事实上，XLNet并不将整个 $\tilde{h}$ 放入memory，而是截取其中一部分。根据论文列出的超参，序列长度最大为512，memory最大长度为384。

6. 整体计算过程

XLNet和transformer一样，每层都要加入前馈连接，层归一化，以及前馈网络。

对 $\forall t=1, \ldots, T :$

$\hat{h}_{z_{t}}^{(m)}=\text { LayerNorm }\left(h_{z_{t}}^{(m-1)}+\operatorname{RelAtn}\left(h_{z_{t}}^{(m-1)},\left[\tilde{\mathbf{h}}^{(m-1)}, \mathbf{h}_{\mathbf{z}_{ < t}}^{(m-1)}\right]\right)\right)$

$h_{z_{t}}^{(m)}=\text { LayerNorm }\left(\hat{h}_{z_{t}}^{(m)}+\operatorname{PosFF}\left(\hat{h}_{z_{t}}^{(m)}\right)\right)$

$\hat{g}_{z_{t}}^{(m)} = \text { LayerNorm }\left(g_{z_{t}}^{(m-1)}+\operatorname{RelAtn}\left(g_{z_{t}}^{(m-1)},\left[\tilde{\mathbf{h}}^{(m-1)}, \mathbf{h}_{z_{ \leq} t}^{(m-1)}\right]\right)\right)$

$g_{z_{t}}^{(m)}=\text { LayerNorm }\left(\hat{g}_{z_{t}}^{(m)}+\operatorname{PosFF}\left(\hat{g}_{z_{t}}^{(m)}\right)\right)$

下图为 $h$ 和 $g$ 的整体注意力计算示意图：

7. 总结

XLNet这篇paper中，排列组合序列，双流注意力，memory机制都是非常值得学习和借鉴的思路。但是在模型越来越大的趋势下，自己动手pre-train已经不可能。只有坐等大厂放出基于中文语料pre-train的模型了。

目前依然有一些细节，在论文中没有明确体现。例如:

排列组合模式如何采样

对一个原始序列的排列组合有 $n!$ 种，不可能全都都用。如何对排列组合进行采样，文中没有具体说。

memory的实现细节

memory的实现细节（如何mask）还需推敲，需要研读源码以及transformer-XL论文

0. XLNet概述

1. AR(autoregressive) vs AE(autoencoding)

2. Bert的痛点

3. XLNet如何解决bert的缺陷

4. XLNet如何降低训练开销

5. Transformer-XL与memory

6. 整体计算过程

7. 总结

Published by

风君子

发表回复取消回复

0. XLNet概述

1. AR(autoregressive) vs AE(autoencoding)

2. Bert的痛点

3. XLNet如何解决bert的缺陷

4. XLNet如何降低训练开销

5. Transformer-XL与memory

6. 整体计算过程

7. 总结

Published by

风君子

发表回复 取消回复

发表回复取消回复