微软必应再强化：接⼊DALL·E模型，⽂字⽣成图像

昨晚，微软正式宣布，必应搜索引擎接⼊了 OpenAI 的 DALL·E 模型，增加了 AI ⽣成图像的功能。也就是说，在接⼊ ChatGPT 之后，必应再次强化，Bing Image Creator 能够让⽤户⽤ DALL·E 模型⽣成图像。对于拥有必应预览版权限的⽤户，Bing Image Creator 将完全集成到必应聊天体验中，⾸先在创意模式下推出。

通过输⼊图像描述，提供位置或活动等额外语境，选择艺术⻛格，Image Creator 将根据⽤户的想象⽣成图像。必应具有三种响应模式：创意模式、平衡模式和精确模式。创意模式下必应⽣成的结果通常是原创和富有想象⼒的，⽽精确模式则倾向于准确性和相关性，以获得更真实和简洁的答案。⽬前 Image Creator 只能在创意模式下使⽤。

即使没有必应预览版的使⽤权限，⽤户也可以通过直接访问 bing.com/create 单独使⽤ Image Creator 来尝试其图像⽣成功能，⽬前仅⽀持英⽂输⼊。微软表示，随着时间的推移，它将⽀持更多的语⾔输⼊。2021 年 1 ⽉ 6 ⽇，OpenAI 博客发布了两个连接⽂本与图像的神经⽹络：DALL·E 和 CLIP。

DALL·E 可以基于⽂本直接⽣成图像，CLIP 则能够完成图像与⽂本类别的匹配。这两项研究的发布，引起了社区极⼤的关注。DALL·E 可以将以⾃然语⾔形式表达的⼤量概念转换为恰当的图像，可以说是 GPT-3 的 120 亿参数版本，可基于⽂本描述⽣成图像。2022 年 4 ⽉ 7 ⽇左右，DALL·E 迎来了升级版本 ——DALL·E 2。

与 DALL·E 相⽐，DALL·E 2 在⽣成⽤户描述的图像时具有更⾼的分辨率和更低的延迟。并且，新版本还增添了⼀些新的功能，⽐如对原始图像进⾏编辑。此次必应接⼊的 DALL·E 应该是经过更新迭代的。这在⼀定程度上，弥补了当前 ChatGPT 在跨模态⽣成⽅⾯缺失的体验。不过等到 GPT-4 多模态能⼒开放后，也许能为我们带来更多新的体验。