试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读。这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人都值得一读。一周之前,ChatGPT迎来重大更新,不管是GPT-4还是GPT-3.5模型,都可以基于图像进行分析和对话。与之对应的,多模态版GPT-4V模型相关文档也一并放出。
当时OpenAI放出的文档只有18页,很多内容都无从得知,对于想要更深入了解GPT-4V应用的人来说,难度还是相当大的。短短几天时间,当大家还在死磕OpenAI放出的18页文档时,微软就公布了一份长达166页的报告,定性地探讨了GPT-4V的功能和使用情况。报告地址:https://arxiv.org/pdf/2309.17421.pdf。
该报告共分为11个章节,重点是对最新模型GPT-4V(ision)进行分析,以加深大众对LMM(大型多模态模型)的理解。文章用很大篇幅介绍了GPT-4V可以执行的任务,包括用测试样本来探索GPT-4V的质量和通用性,现阶段GPT-4V能够支持的输入和工作模式,以及提示模型的有效方法。在探索GPT-4V的过程中,该研究还精心策划组织了涵盖各个领域和任务的一系列定性样本。
对这些样本的观察表明,GPT-4V在处理任意交错的多模态输入方面具有前所未有的能力,并且其功能的通用性使GPT-4V成为强大的多模态通用系统。此外,GPT-4V对图像独特的理解能力可以催生新的人机交互方法,例如视觉参考提示(visual referring prompting)。报告最后深入讨论了基于GPT-4V的系统的新兴应用场景和未来研究方向。
该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究,开发和增强LMM解决现实问题的新方法,并更好地理解多模态基础模型。