这篇论文将学习词表外词表示看做 few-shot 回归问题,提出了一种新的基于层次关注的架构作为神经回归函数,利用该神经回归函数,从 K 个观察值对单词的上下文信息进行编码和聚合。此外,还可以利用模型不可知元学习(MAML)来快速有效地使学习模型适应新的语料库。
现有的词嵌入方法通常假设在语料中每个词都出现足够多次,这样我们就可以通过词的上下文获得该词的词表示。
但在现实世界的场景中,经常有些词不会频繁出现在训练集中,这就为学习他们的词表示带来了挑战。为此,今天我们要介绍的这篇论文将学习词表外词表示看做 few-shot 回归问题,提出了一种新的基于层次关注的架构作为神经回归函数,利用该神经回归函数,从 K 个观察值对单词的上下文信息进行编码和聚合。此外,还可以利用模型不可知元学习(MAML)来快速有效地使学习模型适应新的语料库。
最近关于上下文词表示的工作表明,使用深度模型以自监督的方式捕捉语言特定的语义语法知识是可行的。在这些工作的启发下,本文提出了一种分层上下文编码(HiCE)架构,用于从上下文中提取和聚合信息,并且可以轻松地合并上下文的形态特征。文中 HiCE 主要基于提出的自注意编码块,每个编码块包含一个自注意层和一个逐点全连接层。这样的编码块可以丰富序列输入的交互并有效地提取本地和全局信息。
为了解决训练语料与实际使用的语言语义差异,本文采用模型不可知元学习(MAML)来实现快速和稳健的适应。MAML 不是简单地微调 DN 上的神经回归函数 Fθ,而是提供了一种学习微调的方法。也就是说,首先在 DT 上训练模型以获得更有希望的初始化,基于此,仅通过几个示例对 DN 上的模型进行微调就可以很好地概括。
对于训练时的每一次迭代,首先使用 DT 中的足够数据进行梯度下降以学习更新的权重 θ* 然后将 θ* 视为初始化权重,以优化 DN 中有限数据的 θ。每个训练集的最终更新可以表示为:(其中 α 和 β 都是两个学习率的超参数)
本文在 Chimera Benchmark 上对词嵌入以及一些下游任务(NER、POS tagging)进行了评估,实验效果如下表所示,实验表明,在 DT 上训练的 HiCE 已经能够利用可以通过不同域传递的一般语言知识,并且通过 MAML 的适应可以进一步缩小域差距并提高性能。