我用ChatGPT写神经网络：一字不改，结果竟然很好用

自去年底推出以来，对话式AI模型ChatGPT火遍了整个社区。ChatGPT的确是一个了不起的工具，就像一个「潘多拉魔盒」。一旦找到正确的打开方式，你或许会发现，自己再也离不开它了。作为一个全能选手，人们给ChatGPT提出的要求五花八门，有人用它写论文，有人让它陪聊，这些都是常见的玩法。脑洞再打开一点，既然ChatGPT是AI中的「王者」，那它会不会写一个AI？

近日，一位机器学习领域的博主突发奇想，他决定让ChatGPT构建一个神经网络，使用Keras解决MNIST问题。MNIST算是机器学习领域的经典问题。即使这个手写数字数据集逐渐淡出了计算机视觉领域，但它的纪念意义仍然不可忽视，很多人入门深度学习的第一数据集、验证算法的第一实验都是MNIST。话不多说，想到了就开工。作者直接让ChatGPT写了一段代码，看上去完美无缺，甚至不需要更改任何内容。

这是一个很好的开始。ChatGPT选择了分类交叉熵作为损失函数。作者提出重写分类交叉熵这部分代码，ChatGPT将其替换为稀疏分类交叉熵，更新之后的代码仍能Work。可以发现，新的损失函数放弃了标签的分类转换。ChatGPT生成的代码使用了全连接层，但作者想使用卷积层。因此，ChatGPT按照指示修改了代码，并添加了一个Conv2D和一个最大池化层（MaxPooling layer）。

然后来到了评估最终模型阶段，作者让ChatGPT使用测试集编写代码。结果看起来很棒，而且ChatGPT的每一次回复都带有完整的解释。比如在这次评估中，它这样解释：「评估」方法将测试数据和测试标签作为参数，并返回模型编译（此处为准确率）期间指定的损失和度量。上面的代码片段输出了测试的准确率，这应该可以让你了解到模型对新数据的概括性。模型在训练期间使用了整个测试集作为验证数据。

然后，作者让ChatGPT将其更改为训练数据的20%。此外，作者还想要更小的batch并运行更少epoch的代码。虽然这一步未必要用到ChatGPT，但他不想在不更新ChatGPT上下文的情况下更改代码。所以这项任务还是落在了ChatGPT头上：接下来，作者打算绘制训练过程中的训练和测试损失图。ChatGPT的建议是：需要更改适合模型的line以捕获其结果值。

为了展示数据集中的某些示例，作者让ChatGPT编写代码来输出图像和标签的组合。这些输出的代码也很完美，附有20张图片的合集。构建模型时，查看其结构也是必要的。如果用这个问题去问ChatGPT，回复是：ChatGPT给出的是关于模型的总结：模型的总结很有用，但作者更想看到显示模型结构的图。

所以继续问：结果是满意的，最后就是准备部署这个模型了，让ChatGPT将模型保存到磁盘吧：现在，作者想创建一个使用保存的模型进行预测的类。这是prompt很有趣，解决方案也很完美。现在编写一个示例，使用预测器的类来预测10个随机图像的标签：为了完成这个，作者让ChatGPT展示了一个混淆矩阵：该说不说，ChatGPT使用的样式还真挺好看。

完成所有试验后，作者将所有ChatGPT生成的代码公布了出来，你也可以上手试试：代码地址：https://colab.research.google.com/drive/1JX1AVIfGtIlnLGqgHrK6WPylPhZvu9qe?usp=sharing