北京时间5月14日凌晨,OpenAI发布会公布了新的模型迭代版本GPT-4o,其中“o”代表omnimodel(全能模型)。Sam Altman在社交媒体X上发布推文称,GPT-4o是原生多模态模型,能够跨越语音、文本和视觉进行推理和交流。
在官方演示中,ChatGPT可以直接通过摄像头,判断演示者的心情、正在做的事;可以感受演示者过于急促的呼吸,并引导他一步步放松;可以在不给出最终答案的情况下,指导演示者一步步思考并解开不等式;还可以调整语音的感情,变得更冷静、更激烈、更讽刺,甚至可以唱歌。在官方演示中,ChatGPT的语音交流速度非常快,已经接近人类反应时间,并且可以随时打断模型的语音输出,创造出反馈更实时、更自然的对话。
据介绍,OpenAI将向所有用户免费提供GPT-4o,新的语音对话功能将在数周内向Plus用户开放。此外,OpenAI即将发布一个桌面客户端,随时和用户用图像文字语音进行交流。随后,OpenAI将优先向Plus用户推出macOS应用程序,在今年晚些时候推出Windows版本。