微软必应再强化:接⼊DALL·E模型,⽂字⽣成图像

来源: 机器之⼼(ID:almosthuman2014)

发布日期: 2023-03-22 12:40:22

微软必应搜索引擎接⼊了 OpenAI 的 DALL·E 模型,增加了 AI ⽣成图像的功能。Bing Image Creator 能够让⽤户⽤ DALL·E 模型⽣成图像,⽬前仅⽀持英⽂输⼊。DALL·E 系列研究由 OpenAI 发布,可以基于⽂本描述⽣成图像,并在 2022 年升级为 DALL·E 2,具有更⾼的分辨率和更低的延迟。

昨晚,微软正式宣布,必应搜索引擎接⼊了 OpenAI 的 DALL·E 模型,增加了 AI ⽣成图像的功能。也就是说,在接⼊ ChatGPT 之后,必应再次强化,Bing Image Creator 能够让⽤户⽤ DALL·E 模型⽣成图像。对于拥有必应预览版权限的⽤户,Bing Image Creator 将完全集成到必应聊天体验中,⾸先在创意模式下推出。

通过输⼊图像描述,提供位置或活动等额外语境,选择艺术⻛格,Image Creator 将根据⽤户的想象⽣成图像。必应具有三种响应模式:创意模式、平衡模式和精确模式。创意模式下必应⽣成的结果通常是原创和富有想象⼒的,⽽精确模式则倾向于准确性和相关性,以获得更真实和简洁的答案。⽬前 Image Creator 只能在创意模式下使⽤。

即使没有必应预览版的使⽤权限,⽤户也可以通过直接访问 bing.com/create 单独使⽤ Image Creator 来尝试其图像⽣成功能,⽬前仅⽀持英⽂输⼊。微软表示,随着时间的推移,它将⽀持更多的语⾔输⼊。2021 年 1 ⽉ 6 ⽇,OpenAI 博客发布了两个连接⽂本与图像的神经⽹络:DALL·E 和 CLIP。

DALL·E 可以基于⽂本直接⽣成图像,CLIP 则能够完成图像与⽂本类别的匹配。这两项研究的发布,引起了社区极⼤的关注。DALL·E 可以将以⾃然语⾔形式表达的⼤量概念转换为恰当的图像,可以说是 GPT-3 的 120 亿参数版本,可基于⽂本描述⽣成图像。2022 年 4 ⽉ 7 ⽇左右,DALL·E 迎来了升级版本 ——DALL·E 2。

与 DALL·E 相⽐,DALL·E 2 在⽣成⽤户描述的图像时具有更⾼的分辨率和更低的延迟。并且,新版本还增添了⼀些新的功能,⽐如对原始图像进⾏编辑。此次必应接⼊的 DALL·E 应该是经过更新迭代的。这在⼀定程度上,弥补了当前 ChatGPT 在跨模态⽣成⽅⾯缺失的体验。不过等到 GPT-4 多模态能⼒开放后,也许能为我们带来更多新的体验。

UUID: bc7e1de6-300d-41ec-967e-aceb453bc348

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2023年/学术头条_2023-03-22_微软必应再强化:接入DALL·E模型,文字生成图像.txt

是否为广告: 否

处理费用: 0.0034 元