表示形式语言：比较有限自动机和循环神经网络

本文对ICLR2019论文《REPRESENTING FORMAL LANGUAGES：A COMPARISON BETWEEN FINITE AUTOMATA AND RECURRENT NEURAL NETWORKS》进行了解读。这篇论文通过将RNN的内部状态映射为自动机状态，研究RNN在正则语言识认时所采用的内部结构。通过实验证实了RNN状态与自动机状态间确实存在解码函数。

不过这种解码函数不能将RNN状态直接映射到正则语言的MDFA状态，而是映射到它的超状态。研究显示RNN与自动机在结构上存在较强的关联关系，并解释了RNN在形式语言识认方面所具备的较强学习能力的原因。

研究背景

循环神经网络（RNN）对真实世界中带噪声的序列数据具有不可思议的建模效果。它似乎能够识认序列数据的文法，因为RNN可以生成文法基本正确的结构化数据，像C++和Latex源码。然而，关于RNN识认形式语言的能力方面的研究却很少。本文通过对比RNN与有限自动机的内部结构，提出一种理解RNN在表示形式文法方面所使用的新方法。

实验及结果分析

针对以下4个基本问题，本文针对大约500个正则语言对比分析了RNN及自动机的状态映对应关系。(1)如何选择一个合适的抽象编码函数f ̂？(2)什么导致抽象函数α必然存在？(3)能否事先评估高精度细粒度的编码函数f ̂？是否存在？(4)如何用抽象函数α和编码函数f ̂？更好地理解RNN？通过实验本文得到以下结论。1.解码器学习。实验显示非线性解码器与线性解码器相比不具备更高的精确性。

2.为什么RNN只能模拟抽象化的自动机？本文认为RNN在识认正则语言时只能模拟抽象化的MDFA，而不是MDFA本身。3.抽象状态和转移关系的解码。对于任何抽象α，我们都要评估解码函数是否具有高准确率和低抽象粒度。4.用MDFA解释RNN隐层状态空间。采用两个真实世界的正则语言的例子解释RNN内部知识表示的方式。

结论

本文提出的RNN结构解释方法使我们对RNN有了新的认识。虽然本文采用的解码器不能将RNN的状态映射到MDFA状态，只能映射到抽象后的超状态。但本研究仍然证明了RNN的内部结构与有限自动机的结构间存在很强的关联关系，并解释了众所周知的RNN识认形式语法的能力。