苹果终于发布了自⼰的“AI”,尽管它并不是AI。把AI解释为“Apple Intelligence(苹果智能)”的缩写,总会让⼈回想起当年在上海,杰克⻢⾯对⼀⻰⻢,将AI释为“Alibaba Intelligence(阿⾥智能)”的尴尬时刻。
过去这些年,当众多⼚商都在迫不及待地给产品冠以各种“AI”之名时,苹果却从未这么做,它坚持使⽤“神经⽹络”、“机器学习”等词语,并表示“这样描述才更准确”——⾯对“⼈⼯智能”这⼀概念,苹果始终保持着极⼤的克制和谨慎。是AI,但⼜不是AI。尽管来迟,但不妨碍所有⼈都将这次发布会视为苹果迈⼊AI时代的关键⼀步。发布后⼀周,苹果股价暴涨10%。
除名字之外,苹果这套AI系统和其他⼤模型AI项⽬依然有着根本区别。苹果的模型参量要⼩得多,终极⽬标也不是要训练出“通⽤⼈⼯智能”。它最关键的任务,是将⼈们对AI的想象,从“洞悉⼀切的全知神”,变成“了解⽤户的贴身助⼿”。Make智能⼿机智能againWWDC24上发布的苹果智能,从功能上可以分为三⼤部分:⽂字、图像和Siri。
其中,⽂字和图像相关的功能,包括⽂章改写、总结、语法检查、⽣成图⽚、智能P图,都是⼤家很熟悉的⽣成式AI能⼒。因为这部分功能所使⽤的端侧模型相对较⼩,不难预⻅,它的效果很可能⽐不上GPT-4o等云端⼤模型。苹果AI真正的⾰命性变化,在于Siri。AI模型的⽀持,对Siri进⾏了⼀次“史诗级加强”。它理解语⾔的理能⼒增强了,并且可以跨app进⾏信息检索、调⽤功能。
更重要的是,苹果提出了⼀个极为关键的概念——“个⼈语境”(personalcontext)。简单来说,“个⼈语境”包括了你的iPhone及其他苹果设备上正在发⽣的⼀切。⽐如接下来的⽇历事项安排、最近拍过的照⽚、浏览过的⽹⻚记录、朋友发送给你的链接、⽂件……苹果AI会利⽤这⼀切的私⼈数据,来构建⼀个“私⼈知识库”,⽤户则可以通过⾃然的对话交互,获取⾃⼰需要的信息,找到对应的⼿机功能。
⽐如在AA账单时,问“昨天朋友发给我的吃饭⼩票是多少钱?”;在订机票时问“我的护照号码是多少?”,Siri会从相册⾥找出护照⻚的照⽚,并提取号码;这是AI与智能⼿机结合的焦点,是让AI变得“真正有⽤”的关键钥匙。⽬前我们熟知的⼤模型⼤都是利⽤公共的语料数据进⾏训练,形成的知识也是⼀种“通识”,但普通⼈使⽤计算机和互联⽹时,⼤部分时间都是在创造和使⽤私⼈信息。
特别是智能⼿机已普及如此的今天,它⼏乎就是我们⼈⽣的“记忆库”,储存着⼤量的照⽚、通讯记录、偶尔灵光⼀闪写下的笔记……这些数据在堆积之后,逐渐变得越来越难整理,⽽AI则有可能能够帮我们重新挖掘、组织这些记忆。基于“个⼈语境”来构建模型和私⼈知识库,以及如何将部分知识与通识模型进⾏结合,将会是未来苹果AI发展的关键。⼀切为了“隐私”技术上,苹果AI分为了三个⼤部分,对应三套模型。
⾸先是运⾏在⼿机上的“本地模型”,其次是运⾏在苹果全栈⾃研服务器上的“云端模型”,最后它还可以在系统层接⼊OpenAI的GPT,后续还会接⼊更多第三⽅AI模型服务。通过这种⽅式来搭建架构,是因为苹果需要谨慎⽽迫切解决的问题,是隐私。根据⽬前苹果放出的技术资料,苹果AI⾸先会从系统层⾯收集各种信息,⽣成⼀个“语义⽬录”,也就是“个⼈语境”的基本数据单位,供模型进⾏理解。
第三⽅app⾥的数据也有对应接⼝,经开发者适配后,可以实现类似效果。这些数据会经过语⾔和图像两个模型进⾏理解,之后如果本地模型的算⼒不够,在⽤户需要的时候,系统则会整合这部分语义数据,发送到苹果的服务器上,通过云端更⼤的模型进⾏理解。这⼀套“语义⽬录”包含了⽤户最敏感的个⼈数据,其中很多还是在后台默认采集,才能实现“Siri了解了你”的神奇效果,过程中⽤户可能⽆法很明确地知道具体哪些数据被采集了。
所以,为了实现这部分功能的隐私安全,苹果作出了不少努⼒和牺牲。苹果所部署的本地模型参量虽然⽐不上云端⼤模型的千亿万亿级,但也有约30亿的参量。所以只有搭载A17Pro芯⽚的iPhone15Pro系列,以及M1以上芯⽚的iPad和Mac才⽀持这⼀功能,考虑到⼤部分⽤户都会主⼒通过iPhone使⽤苹果AI,这可能会极⼤影响到苹果AI早期的冷启动。
包括本地模型运⾏时的负载,可能也会影响⼿机的⽇常发热、续航表现。⽽针对云端模型和服务器,苹果也拿出了最⾼级别的隐私安全实践。苹果承诺不会在模型服务器上储存任何⽤户信息;只有当⽤户主动请求时才会调⽤云端模型介⼊;云端模型所使⽤的芯⽚全都是苹果⾃研,没有任何第三⽅芯⽚;最后,苹果表示所有的隐私承诺将经过第三⽅验证。直到这⼀步,⽤户所有的数据和GPT等第三⽅⼤模型,都是严格隔离的。
针对GPT的接⼊,苹果则做了产品层⾯的明显区分,只有⽤户“主动输⼊”的信息,才会以prompt的形式发送到GPT,且过程中苹果会进⾏⼆次确认,提醒⽤户“接下来将会跳转到GPT”。考虑到苹果已经在iCloud上储存了⼤量的⽤户数据,且多年来从未出现过⼤的泄漏安全事故,苹果在AI上采取的超⾼级别的隐私承诺似乎有点夸张。
但事实证明⼀切还是有必要的,就在发布会后不久,ElonMusk就针对苹果AI的隐私问题展开了攻击,暗示⽤户使⽤苹果AI就会把数据泄露给OpenAI,尽管这⼀揣测还没有什么真实依据。对苹果AI来说,隐私问题本身或许还能通过技术和产品设计解决,但由隐私问题所衍⽣出这⼀套分散的模型架构,才是真正的隐患和难题。
如果苹果AI⼀直⾼度依赖本地算⼒,考虑到模型规模和性能负载,它采集数据的颗粒度可能就会受到限制,停留在⽐较粗糙的层⾯,难以实现⼤模型那么顺畅的理解和交互。⽬前在苹果AI的介绍⻚⾯⾥,整个“个⼈语境”还只能采集系统⾃带官⽅app的信息。第三⽅开发者要如何适配AI?会不会积极适配AI?还要打上不少个问号。
过去,苹果推出过多个系统内的便捷API,⽐如能够在相册app⾥直接利⽤第三⽅app的编辑⼯具修图,以及“快捷指令”和“AppClips⼩程序”,这些开发套件都没有得到第三⽅开发者的积极适配,因为接⼊这些便捷功能反⽽会影响app本身的活跃和留存。类似的问题,很可能也会在苹果AI上重演。所以,苹果AI所⾯临的隐私问题,其实只是⼀连串难题的开始。
与⼤模型“⼤⼒出奇迹”的发展⽅法论不同,想要将AI与⼿机结合,就必须重新设计整条技术链路。从数据如何采集,过程中保证安全,训练拟合时如何追求效率和效果,到输出时如何转化为产品的功能……这和训练⼤模型,做⼀个“聊天机器⼈”完全不同。谨慎地期待,耐⼼地等待⼤模型AI落地的主要难题,在于“产品化”。⼤模型诞⽣的过程,靠的是构建⼀个巨⼤的神经⽹络,这个神经⽹络是单⼀的,难以被hack,更难拆分。
就像GPT⽬前严格来说依然只有ChatGPT这⼀个应⽤,⼤模型是封装好的单⼀系统,并不能像传统的计算机程序⼀样,所以就难以定义功能、产品化。⽬前围绕ChatGPT所做的那些产品,基本都是通过prompt实现的,并不具备⼀个产品所需要的严谨性,它依然偶尔会返回错误的结果,致命的地⽅则在于这些错误⽆法被debug。苹果AI显然不是⼀个简单的“语⾔模型”。
它其中有⼀部分功能是基于⼤模型的⽣成能⼒做的,但也有另外⼀部分功能明显更像是“加强版的机器学习”,⽐如Siri的搜索能⼒。只不过这些功能被装到了同⼀个篮⼦⾥,这个篮⼦叫“苹果智能”。根据苹果放出的技术⽂档,⽬前苹果的云端模型,主要处理的还是⽂字、图像相关的“⽣成性”任务;⽽最关键的“个⼈语境”构建和Siri的优化,⼤部分依然是通过本地实现,它的“智能程度”可能很难得到保证。这不只是苹果⼀家的问题。
⽬前还没有任何⼀个AI企业或⼿机⼚商,成功将⼀个私⼈的数据库,与⼤模型的公共知识库成功结合,创造出新的智能体,即想象中的完全了解⽤户的智能助⼿——解决这个问题的难度,⽐想象中⼤得多。按照苹果公布的开发进度,⾄少在明年之前,我们都⽆法⽤上中⽂版的苹果AI,很显然,⼤量的功能代码和模型训练⼯作都还没有完成。
过去⼀年我们⽤“涌现”这个词来形容⼤模型的能⼒发展之迅速,但真正到了与实⽤场景结合的时候,事情依然要复杂得多,需要更⻓的等待。序幕拉开了,但表演还没有开始。