昨晚,微软正式宣布,必应搜索引擎接⼊了 OpenAI 的 DALL·E 模型,增加了 AI ⽣成图像的功能。也就是说,在接⼊ ChatGPT 之后,必应再次强化,Bing Image Creator 能够让⽤户⽤ DALL·E 模型⽣成图像。对于拥有必应预览版权限的⽤户,Bing Image Creator 将完全集成到必应聊天体验中,⾸先在创意模式下推出。
通过输⼊图像描述,提供位置或活动等额外语境,选择艺术⻛格,Image Creator 将根据⽤户的想象⽣成图像。必应具有三种响应模式:创意模式、平衡模式和精确模式。创意模式下必应⽣成的结果通常是原创和富有想象⼒的,⽽精确模式则倾向于准确性和相关性,以获得更真实和简洁的答案。⽬前 Image Creator 只能在创意模式下使⽤。
即使没有必应预览版的使⽤权限,⽤户也可以通过直接访问 bing.com/create 单独使⽤ Image Creator 来尝试其图像⽣成功能,⽬前仅⽀持英⽂输⼊。微软表示,随着时间的推移,它将⽀持更多的语⾔输⼊。2021 年 1 ⽉ 6 ⽇,OpenAI 博客发布了两个连接⽂本与图像的神经⽹络:DALL·E 和 CLIP。
DALL·E 可以基于⽂本直接⽣成图像,CLIP 则能够完成图像与⽂本类别的匹配。这两项研究的发布,引起了社区极⼤的关注。DALL·E 可以将以⾃然语⾔形式表达的⼤量概念转换为恰当的图像,可以说是 GPT-3 的 120 亿参数版本,可基于⽂本描述⽣成图像。2022 年 4 ⽉ 7 ⽇左右,DALL·E 迎来了升级版本 ——DALL·E 2。
与 DALL·E 相⽐,DALL·E 2 在⽣成⽤户描述的图像时具有更⾼的分辨率和更低的延迟。并且,新版本还增添了⼀些新的功能,⽐如对原始图像进⾏编辑。此次必应接⼊的 DALL·E 应该是经过更新迭代的。这在⼀定程度上,弥补了当前 ChatGPT 在跨模态⽣成⽅⾯缺失的体验。不过等到 GPT-4 多模态能⼒开放后,也许能为我们带来更多新的体验。