作为市值超过两万亿美元、现金流领跑业界的科技巨头,苹果拥有十分雄厚的学术研究后盾。不过,在人工智能和机器学习(AI & ML)学术领域,我们更多听到的是来自谷歌、Facebook、微软、亚马逊团队的研究发布的成果和频繁在各大顶会拿奖的消息,或者在自家的发布会上给AI技术保绝对的留C位。而苹果似乎给人一种掉队的感觉。也正因如此,业内有一种说法认为,苹果在人工智能领域属于“后来者”。
苹果正在修正这种错觉。时至今日,AI已经几乎成为每家科技公司吸引消费者的标配说辞,仿佛推出新产品时如果不提到机器学习或神经网络,就像在兜售手摇计算器。尽管这种做法可能导致对消费者做出过度承诺。在2017年的一次媒体采访中,苹果CEO库克回应了苹果很少谈及AI以及外界不看好苹果做AI的问题。他表示:“苹果的AI不被看好,是因为我们不喜欢谈论并未实现的功能”。
在那次采访中,他列出了苹果公司使用机器学习技术的一个清单:对照片进行图像识别;Apple Music能够从我们的音乐记录中学习我们的音乐偏好,以此向我们推荐相应的歌曲;甚至,iPhone的电源管理系统也使用机器学习来研究我们的使用情况并做出相应的优化,以延长iPhone电池的待机时间。
其实,想想苹果在计算硬件上下的工夫——比如近期宣布由外部采购走向完全自有的A系列芯片,也可推测它要用多少AI技术去“消耗”掉这些算力:苹果多次公布的iOS、iPadOS和macOS更新中,有许多以机器学习为核心的功能,例如iPhone、iPad和手表的实时翻译、健康数据收集、iPad防误触等功能。
有些功能甚至没有标识用了AI技术,但我们可以很肯定苹果用了与之相关的技术,例如iPad的手写识别功能,它在图像识别任务方面非常出色,特别是颇有难度的中英文字符识别。AI成果与自家产品深度绑定,但又比较“藏着掖着”,无论是产品发布会还是开发者大会,苹果都倾向于突出产品的创新,其次才是背后的AI技术。这是2018年之前的苹果典型做派。
相比之下,谷歌和Facebook等巨头们则是更为开放和高调的主流派,因此也吸引了更多的关注度。用库克的话来说,他们喜欢谈论还处在“未来”当中的东西。比较显著的改变出现在2018年底前后,这家公司开始更积极介入到学术圈,包括参加和赞助各种大会,发表预印本论文,公开的研究成果也逐渐不再局限于自家产品。
发生这样变化的主要原因之一在于,那个时间段,苹果招募了多名AI大牛人物,例如John Giannandrea和Ian Goodfellow(GANs之父,苹果的第一篇机器学习论文便是关于GANs,如下图)。两人均来自谷歌AI团队,前者是谷歌的人工智能和搜索主管,加入苹果后负责公司的人工智能战略,后者是谷歌大脑的明星研究科学家,加入苹果之后则负责机器学习小组。
两人为苹果带去了积极建设AI科研社区的精神。“(2018年底)刚加入苹果时,我去软件部门寻找做手写技术的机器学习团队,竟然没找到,”Giannandrea在一次采访中表示。“我当时就知道,苹果在机器学习领域有太多应该做的事情,但都没有行动。在过去的2-3年里,这个现象发生了巨大改变,未来还会继续。
”目前,苹果正在人工智能领域发力,来提升其软件和硬件能力,应用的最主要产品是FaceID、Siri和自动驾驶技术。与上述故事线平行进行的另一个线索,是苹果于2017年年中悄悄上线的官方AI博客——Apple Machine Learning Journal。
这个开设时间晚于业界大部分巨头的AI博客,自然不能和DeepMind AI Blog这样的老牌博客相提并论,但也是苹果为提升自身公众关注度做的努力。真正有趣的事情还是这个博客的内容。我们能看到苹果正在尝试用AI解决哪些问题,或许下一个十年最具颠覆性的应用就藏身其中。
Apple Machine Learning Journal的“开门之作”,是重发了一遍苹果2016年12月发布的一篇论文,内容与苹果AI研究的一个核心弱点有关:缺少数据来源。苹果长期标榜的商业模式是“不窥探用户”、靠卖硬件盈利(近几年软硬兼顾),因而在获取大量数据的渠道上受到了限制。
这项名为“Improving the Realism of Synthetic Images”的研究,便描述了一种创建可用于训练面部识别系统的图像合成方法。虽不是开创性的研究,但也象征着苹果AI研究如何响应眼前需求。
在那之后,这个博客的内容也越来越多:从图像到语音到自然语言处理,从深度强化学习到隐私计算到智能代理,Siri团队、手写识别团队、隐私团队轮番登场,覆盖的顶会也已经囊括CVPR、ACL、Interspeech、KDD。博客的论文数量也由2017年的9篇,发展至2020年年初至今的32篇。显然,苹果的AI研究输出越来越密集。
那么,苹果的AI团队都在关心哪些AI方向?以2020年年初至今的32篇文章为样本,18篇与语音和自然语言处理有关,占比最大。其次是机器学习方法和算法相关论文,共计10篇。余下的涉猎领域包括计算机视觉、健康、人机交互、平台和框架,以及知识库和搜索,各有1-3篇不等。有的论文还会同时涉猎多个领域。这些论文都是预印本,以公布科研成果为主,其中不乏“造轮子”的理论研究和机器学习新框架。
另一方面,一些实用性较强的技术很可能已经应用到了苹果产品中,比如Siri和iOS中。最新的一篇是关于糖尿病的研究,被主打机器学习用于医疗健康的会议MLHC(machine learning for health care)所接收。根据介绍,团队开发了一种预测1型糖尿病患者血糖的胰岛素动力学模型,通过引入由机器学习序列模型驱动的动力学来扩充现有的生物医学模型。
在所有2020年苹果技术团队发表的论文中,我们挑选了5篇最具有代表性和实用性的论文。1、实时识别手写汉字在针对手写汉字的研究中,苹果AI团队利用CNN神经网络模型,打造了一个汉字识别系统。它可以识别多达3万个手写体汉字,在多个移动设备上实时运行。该任务的难点在于汉字书写的独特性。每个人的书写习惯不同,导致每个字都有很多样式,或许还与标准体存在较大差距。
同时,AI还要面对庞大的汉字词库,甚至还有简繁之分。这对系统的运算速度提出了很高的要求。2、Hey Siri关键词触发检测如前文所说,语音识别和自然语言处理是苹果发表论文最多的领域,而Siri必然是从中受益的产品之一。仅今年一年,就有至少3篇论文讨论的技术和模型可以应用于Siri上。最典型的应用场景是降低唤醒词Hey Siri(你好,Siri)的误识别率。
3、预测糖尿病患者血糖变化今年8月6日,苹果AI发表了第一篇健康领域的论文,讨论如何利用机器学习模型预测1型糖尿病患者的血糖水平。这有助于制定更有效的血糖控制策略和闭环治疗方案。4、利用GAN改进虚拟键盘滑行输入虚拟键盘滑行输入,是苹果在iOS13新加入的功能,但其实很多第三方输入法早就开发了相同的功能。熟练掌握后,它可以显著提高输入速度。
不过预测滑行输入的词汇更为复杂,因为滑行带有更多的不确定性。5、预测词语流行度,提高语音助手准确率对于Siri之类的虚拟语音助手来说,当用户只给出一个名词时,往往是最困难的时刻。缺少背景资料和动词,不仅会让它不知所措,还会降低识别准确率,混淆发音相似的词。