互信息视角下的表征学习

互信息（MI）在表征学习中广泛被用到，但由于其intractable的性质，很多方法只是将其一个下界作为优化的目标。本文简单阐述了两篇文章，其中一篇将如今的词表示学习方法统一到MI的视角下，另一篇首次提出了近似MI的导数而非直接近似MI来得到更好的近似效果。

A Mutual Information Maximization Perspective of Language Representation Learning

作者指出如今SOTA的词表示学习的方法在优化的目标函数其实是一个词序列的不同部分的互信息（MI）的下界。互信息是度量两个随机变量之间依赖程度的标准。给定两个随机变量A和B，它可以被理解为对于A的知识可以多大程度上减少B的不确定性，反之亦然。其一个典型的下界为InfoNCE，这类方法是众所周知的contrast learning。

文章的贡献如下：（1）提出了一个基于最大化MI的理论框架来理解词表示学习模型，并将已知的方法统一到这个框架之中，如skip-gram，masked language modeling（如BERT）和permutation language modeling（如XLNET）。

并指出BERT和Skip-gram其实在最大化一个相似的目标式，而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。（2）与此同时，这样一个框架可以提出一种普遍的表示学习模型，这种模型可以作为设计并将自监督训练的目标函数结合进来来得到更好的语言表示的基础。

此外我们还可以联想到Deep InfoMax（DIM）---一个基于互信息的图像表示学习的方法，而DIM旨在最大化一个图像的局部和整体表示向量的互信息。对于一个词序列，我们也可以考虑其整体表示和局部的表示（如一个单词），并借鉴这一思路将其作为我们希望最大化目标函数的一部分。（3）在此基础上作者提出了INFOWORD这一模型。

其优化目标有两项，一个来源于DIM，选取一个masked单词序列为整体表示，一个n-gram为局部表示；另一个来源于Masked Language Modeling。作者在选取三个模型，BERT，BERT-NCE（作者对于BERT的改动版本），INFOWORD，并在两个数据集（GLUE和SQuAD）上检测其效果。

Mutual Information Gradient Estimation for Representation Learning互信息（MI）在表示学习中占据很重要的地位，但不幸的是，对于连续的高维变量MI是intractable的。目前解决这一问题的思路是使用MI的一种估计来近似MI，但大多数现存的方法并不能在MI很大的时候很好地给出MI的较为精确值。

据此，作者提出一种直接估计MI的导数的方法（MIGE）来使其在表示学习中比估计MI自身取得更好的效果，并将其应用在无监督学习的方法如Deep InfoMax与Information Bottleneck上。

文章贡献主要如下：（1）提出了MIGE，它可以在高维变量且MI较大时更好地给出MI一个更紧的具有较为光滑的导数估计；（2）提出了Scalable SSGE可以在高维情形时避免计算SSGE时所需的较高的计算代价。作者分三种情形给出了MI导数的估计。并将其应用在Deep InfoMax和Information Bottleneck上，均取得了较好的效果。