近日,OpenAI首席科学家Ilya Sutskever在专注于计算理论研究的Simons Institute作了一次讲座,一句话总结就是我们通过压缩的视角来看待无监督学习。此外他还分享了不少其它有趣的见解。
Sutskever首先谈到了自己的研究方向的变化,他说:「不久前,我将全部的研究重心都转移到了AI对齐研究上。」这说的是OpenAI前段时间成立的「Superalignment(超级对齐)」团队,由他与Jan Leike共同领导。Sutskever表示他们已经在AI对齐方面取得了一些研究成果,但这并非这次演讲关注的话题。
这次演讲的主题为「An observation on Generalization(对泛化的一种观察)」,而Ilya Sutskever具体谈论的重点是一种解释无监督学习的理论。
Sutskever首先提出了一些有关「学习」的广义问题:学习究竟是什么?为什么学习有用?为什么学习应该有用?计算机为什么应该具备学习能力?为什么神经网络可以学习?为什么机器学习模型可以学习到数据的规律?我们能否用数学形式来描述学习?
监督学习方面已经有了重要的形式化工作,这是多位研究者在多年前得到的成果;这些成果通常被称为统计学习理论。监督学习的优势在于能提供一个学习必定成功的精确数学条件。也就是说,如果你有一些来自某数据分布的数据,然后你能成功实现较低的训练损失并且你的训练数据足够多(多于数据分布的自由度),那么你的测试误差必定很低。
无监督学习是机器学习领域长久以来的梦想。Sutskever认为这个目标已经在实验研究中达成,即模型在不被告知数据内容的前提下观察数据并发现其中存在的真实有用的隐藏结构。这是怎么发生的?我们能确保这一定会发生吗?Sutskever表示我们不能,毕竟我们在无监督学习方面没有在监督学习方面那样的理论保证。
Sutskever展示了一种思考无监督学习的潜在方式。他说这种无监督学习方式一直没有成为主流,但却非常有用。它有与监督学习类似的特征,也就是必然有效。为什么会这样?这涉及到一种名为分布匹配(distribution matching)的无监督学习流程。
Sutskever指出,为了能更清晰地说明对无监督学习的思考,使用压缩方面的论述方式更具优势。基于此,他给出了一个思想实验。假设你有两个数据集X和Y,它们是你的硬盘上的两个文件;然后你有一个很棒的压缩算法C。再假设你对X和Y进行联合压缩,也就是先将它们连接起来,然后将其馈送给压缩器。
Sutskever在演讲中谈到的最后一点是:这种联合压缩就是最大似然,只要没有过拟合。如果你有一个数据集,那么给定参数的似然之和就是压缩该数据集的成本。你还需要支付压缩参数的成本。而如果你想压缩两个数据集,也没有问题,只需向你的数据集添加数据点即可,也就是向上面的求和运算sum添加更多项。