清华、智谱AI团队：自动网页导航智能体AutoWebGLM

清华、智谱AI团队发布了一款名为AutoWebGLM的自动网页导航智能体。AutoWebGLM借助LLM（大型语言模型）强大的理解和响应能力，能够自动完成人类世界中的复杂操作，如自动总结最新新闻，自动安排日程等。这种能力不仅能提升生活效率，还将重新界定机器辅助生产力的边界。然而，不同的网站具有复杂的任务操作，目前依然缺乏一个统一的、跨越各类网站所有必要任务的行为空间。

网页的多样性、复杂性以及网页内容的冗长，对执行正确操作都带来一定的挑战，目前缺乏一个有效的网页简化方法。由于缺乏高质量的操作轨迹数据，目前基于LLM的Agent在网页任务上正确推理和自我检查的能力明显不足，一旦陷入错误循环，很难迅速纠正问题。基于这些考虑，清华、智谱AI团队提出了AutoWebGLM框架。这是一个基于ChatGLM3-6B模型的自动网页浏览Agent框架。

与其前身——专注于检索增强的WebGLM不同，AutoWebGLM会像人类一样去操作真实的网页，从而能够自主完成复杂的现实世界中的任务。在多个评测集上，AutoWebGLM相比GPT-4有较大的性能提升。项目地址：https://github.com/THUDM/AutoWebGLM，论文地址：https://arxiv.org/pdf/2404.03648.pdf。