本文对ICLR2019论文《REPRESENTING FORMAL LANGUAGES:A COMPARISON BETWEEN FINITE AUTOMATA AND RECURRENT NEURAL NETWORKS》进行了解读。这篇论文通过将RNN的内部状态映射为自动机状态,研究RNN在正则语言识认时所采用的内部结构。通过实验证实了RNN状态与自动机状态间确实存在解码函数。
不过这种解码函数不能将RNN状态直接映射到正则语言的MDFA状态,而是映射到它的超状态。研究显示RNN与自动机在结构上存在较强的关联关系,并解释了RNN在形式语言识认方面所具备的较强学习能力的原因。
研究背景
循环神经网络(RNN)对真实世界中带噪声的序列数据具有不可思议的建模效果。它似乎能够识认序列数据的文法,因为RNN可以生成文法基本正确的结构化数据,像C++和Latex源码。然而,关于RNN识认形式语言的能力方面的研究却很少。本文通过对比RNN与有限自动机的内部结构,提出一种理解RNN在表示形式文法方面所使用的新方法。
实验及结果分析
针对以下4个基本问题,本文针对大约500个正则语言对比分析了RNN及自动机的状态映对应关系。(1)如何选择一个合适的抽象编码函数f ̂?(2)什么导致抽象函数α必然存在?(3)能否事先评估高精度细粒度的编码函数f ̂?是否存在?(4)如何用抽象函数α和编码函数f ̂?更好地理解RNN?通过实验本文得到以下结论。1.解码器学习。实验显示非线性解码器与线性解码器相比不具备更高的精确性。
2.为什么RNN只能模拟抽象化的自动机?本文认为RNN在识认正则语言时只能模拟抽象化的MDFA,而不是MDFA本身。3.抽象状态和转移关系的解码。对于任何抽象α,我们都要评估解码函数是否具有高准确率和低抽象粒度。4.用MDFA解释RNN隐层状态空间。采用两个真实世界的正则语言的例子解释RNN内部知识表示的方式。
结论
本文提出的RNN结构解释方法使我们对RNN有了新的认识。虽然本文采用的解码器不能将RNN的状态映射到MDFA状态,只能映射到抽象后的超状态。但本研究仍然证明了RNN的内部结构与有限自动机的结构间存在很强的关联关系,并解释了众所周知的RNN识认形式语法的能力。