苹果最新研究:欺骗大模型有多容易?多模态大型语言模型(MLLMs)取得的巨大进步并没有使其免受挑战,尤其是在处理提示中的欺骗性信息时,这种情况下会产生幻觉式回应。为此,来自苹果公司的研究团队提出了一个新基准——MAD-Bench,它包含850个测试样本,分为6个类别(如不存在的物体、物体数量、空间关系和视觉混淆等)。
研究团队对流行的MLLMs进行了全面分析,如从GPT-4V、Gemini-Pro到LLaVA-1.5和CogVLM等开源模型。研究发现,GPT-4V与其他模型之间存在明显的性能差距;而之前的鲁棒指令微调模型,如LRV-Instruction和LLaVA-RLHF等在这个新基准上无效。除GPT-4V在MAD-Bench上达到了75.02%的准确率之外,其他模型的准确率都在5%到35%之间。
当在欺骗性提示中增加一段话,鼓励模型在回答问题前三思而后行时,这种简单的方法甚至可以将准确率提高一倍;但是,绝对数字仍然太低,无法令人满意。该项研究希望可以将MAD-Bench作为一个有价值的基准来激励进一步的研究,从而提高模型对欺骗性提示的应变能力。
论文链接:https://arxiv.org/abs/2402.13220