清华、智谱AI团队发布了一款名为AutoWebGLM的自动网页导航智能体。AutoWebGLM借助LLM(大型语言模型)强大的理解和响应能力,能够自动完成人类世界中的复杂操作,如自动总结最新新闻,自动安排日程等。这种能力不仅能提升生活效率,还将重新界定机器辅助生产力的边界。然而,不同的网站具有复杂的任务操作,目前依然缺乏一个统一的、跨越各类网站所有必要任务的行为空间。
网页的多样性、复杂性以及网页内容的冗长,对执行正确操作都带来一定的挑战,目前缺乏一个有效的网页简化方法。由于缺乏高质量的操作轨迹数据,目前基于LLM的Agent在网页任务上正确推理和自我检查的能力明显不足,一旦陷入错误循环,很难迅速纠正问题。基于这些考虑,清华、智谱AI团队提出了AutoWebGLM框架。这是一个基于ChatGLM3-6B模型的自动网页浏览Agent框架。
与其前身——专注于检索增强的WebGLM不同,AutoWebGLM会像人类一样去操作真实的网页,从而能够自主完成复杂的现实世界中的任务。在多个评测集上,AutoWebGLM相比GPT-4有较大的性能提升。项目地址:https://github.com/THUDM/AutoWebGLM,论文地址:https://arxiv.org/pdf/2404.03648.pdf。