重磅!AI无限学习、进化,研究登上Nature;Meta提出多模态模型训练方法Transfusion。大模型周报将从【企业动态】【技术前瞻】【政策法规】【专家观点】四部分,带你快速跟进大模型行业热门动态。
01 企业动态
Ideogram推出文生图模型Ideogram 2.0。日前,Ideogram推出了新版本文本到图像模型Ideogram 2.0。据介绍,Ideogram 2.0的性能优于DALL-E、Midjourney和FLUX Pro,不仅具有更高的文本准确性,还为开发人员提供了Ideogram API和Ideogram Search的测试版本。
微软推出3款Phi 3.5开源模型。日前,微软推出了Phi 3.5系列中的3个新开源人工智能(AI)模型:Phi 3.5 mini-instruct、MoE-instruct和vision-instruct,为跨语言的商业和科学应用提供可扩展的推理能力。
AI21推出两款Mamba-Transformer模型。AI21推出了Jamba Large和Jamba Mini,这是Mamba-Transformer模型系列中的两个新语言模型,在开放模型中具有最长的上下文窗口(256k),可与Llama 3.1和Mistral Large等先进模型相媲美。
Luma Labs推出Dream Machine 1.5。Luma Labs推出了Dream Machine 1.5,为用户提供卓越的文本到视频生成功能、更智能的提示和自定义文本渲染功能,从而提升视频创作水平。
OpenAI推出GPT-4o微调功能。日前,OpenAI推出了GPT-4o微调功能,允许开发人员定制模型响应,旨在提高特定领域任务(如软件工程和文本到SQL)的性能,并限时为GPT-4o提供每天100万个免费训练token,为GPT-4o mini提供200万个免费token。
为训练AI模型,Meta推出全新网络爬虫程序。据《科创板日报》报道,Meta推出全新网络爬虫程序Meta-External Agent和Meta-External Fetcher,用于收集互联网数据以训练其AI模型,该程序可绕过robots.txt规则,从而无限制地获取数据。
昆仑万维推出AI短剧平台SkyReels。据《科创板日报》报道,昆仑万维推出了全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。SkyReels平台集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,让创作者“一键成剧”,轻松制作高质量AI视频。
Google DeepMind近200名员工呼吁放弃与军队的合同。根据《时代周刊》和五名知情人士查阅的文件副本,Google DeepMind内部的200名早期员工签署了一封信,呼吁这家科技巨头放弃与军事组织的合同。这封信的传播正值该公司内部越来越担心其技术被出售给参与战争的军队,他们认为这违反了谷歌自己的人工智能规则。
OpenAI签署协议,在Condé Nast内容上进行训练,在ChatGPT上呈现故事。日前,OpenAI与全球杂志巨头康泰纳仕(Condé Nast)达成多年的合作协议,允许ChatGPT及其搜索引擎SearchGPT展示Vogue、The New Yorker、GQ等知名刊物的内容。这是OpenAI与主要媒体公司达成的最新协议。
02 技术前瞻AI无限学习、进化!最新研究登上Nature。
大语言模型(LLM)可以产生看似智能的回应,但它们缺乏在使用过程中继续学习的能力。这阻碍了它们在被更多使用时给出更准确的回复,也无法通过对新数据集进行训练而变得更加智能。来自阿尔伯塔大学的研究团队测试了传统神经网络在原始数据集上进行训练后继续学习的能力,发现了所谓的“灾难性遗忘”现象,即系统在接受新数据训练后,失去了执行原来能够完成的任务的能力。
他们还发现,如果对多个任务进行顺序训练,这些系统也会完全丧失学习能力——他们将此描述为“可塑性丧失”。在这项研究中,他们找到了解决问题的方法——通过重置之前与网络上的节点关联的权重。在人工神经网络中,节点使用权重来衡量其强度,随着权重的增加,它所传达的信息的重要性也随之增加。
研究人员建议,使用用于初始化系统的相同方法在训练会话之间重新初始化权重,应该可以保持系统的可塑性,并使其继续在其他训练数据集上学习。相关研究论文以“Loss of plasticity in deep continual learning”为题,已发表在权威科学期刊Nature上。
Meta提出多模态模型训练方法Transfusion。
在这项工作中,Meta团队及其合作者提出了一种通过离散和连续数据训练多模态模型的方法——Transfusion,其将语言建模损失函数(下一个token预测)与扩散相结合,在混合模态序列上训练一个transformer。他们在文本和图像混合数据上从头开始预训练了多个Transfusion模型,参数为7B,建立了与各种单模态和跨模态基准相关的缩放规律。
实验表明,Transfusion的扩展能力明显优于量化图像和在离散图像token上训练语言模型。通过引入特定模式的编码和解码层,他们可以进一步提高Transfusion模型的性能,甚至可以将每幅图像压缩到16个patch。他们进一步证明,将Transfusion扩展到7B参数和2T多模态token,可以生成与类似规模的扩散模型和语言模型相当的图像和文本,从而同时具备两类模型的优点。
清华、智谱AI团队推出10000字长文本输出模型LongWriter。目前的长上下文大语言模型(LLM)可以处理多达10万个token的输入,但很难生成长度超过2000个token的输出。通过对照实验,来自清华大学和智谱AI的研究团队发现,模型的输出限制是由于现有SFT数据集中长输出示例的稀缺性造成的。
为了解决这个问题,他们提出了一种基于智能体的管道——AgentWrite,其可以将超长生成任务分解为子任务,使得现有可用的LLM能够生成超过20000字的连贯输出。利用AgentWrite,他们构建了LongWriter-6k,这是一个包含6000个SFT数据的数据集,输出长度从2k到32k字不等。
通过将该数据集纳入模型训练,他们成功地将现有模型的输出长度扩展到了10000字以上,同时保证了输出质量。
Agent Q:自主AI智能体的高级推理和学习。来自MultiOn和斯坦福大学的研究团队提出了一个框架,它将蒙特卡洛树搜索(MCTS)与自批评机制相结合,并使用直接偏好优化(DPO)算法的离策略(off-policy)变体对智能体互动进行迭代微调。
这一方法允许LLM智能体从成功和不成功的轨迹中有效地学习,从而提高它们在复杂的多步骤推理任务中的通用性。他们在WebShop环境(模拟电子商务平台)中验证了这一方法,其性能始终优于行为克隆和强化微调基线,并在具备在线搜索功能时优于人类的平均性能。
在真实世界的预订场景中,在一天的数据收集后,这一方法使Llama-3 70B模型的零样本成功率从18.6%提高到81.7%(相对提高340%),在线搜索成功率进一步提高到95.4%。
Meta推出个性化图像生成模型Imagine yourself。在这项研究中,Meta团队提出了一种专为个性化图像生成而设计的模型——Imagine yourself。
与传统的基于微调的个性化技术不同,Imagine yourself是一种免微调模型,所有用户都能利用共享框架,无需进行个性化微调。研究表明,Imagine yourself超越了SOTA个性化模型,在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明,与以前的个性化模型相比,该模型在身份保持、文本忠实性和视觉吸引力等方面都达到了SOTA。
通用智能体新进展:自动设计,优于SOTA人工设计智能体。来自英属哥伦比亚大学的研究团队提出了智能体系统自动设计(ADAS),旨在自动创建功能强大的智能体系统设计,包括发明新的构建模块和/或以新的方式组合它们。ADAS中有一种尚未开发但前景广阔的方法,即可以用代码定义智能体,并通过元智能体在代码中编写更好的智能体来自动发现新智能体。
通过跨编码、科学和数学等多个领域的广泛实验,他们发现这一算法可以逐步发明出具有新颖设计的智能体,其性能大大优于SOTA人工设计智能体。
JPEG-LM:一种新颖的图像、视频生成模型。来自华盛顿大学和Meta的研究团队提出了一种新颖的图像、视频生成模型,将图像和视频直接建模为通过标准编解码器(如JPEG、AVC/H.264)保存在计算机上的压缩文件。
他们使用Llama架构,不做任何针对视觉的修改,通过直接输出JPEG和AVC格式的压缩文件字节,从头开始预训练JPEG-LM来生成图像(作为概念验证,AVC-LM生成视频)。对图像生成的评估表明,这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效,该方法可将FID降低31%。
LongVILA:长上下文视觉-语言模型全栈解决方案。在这项工作中,来自英伟达和麻省理工学院(MIT)提出了长上下文视觉-语言模型的全栈解决方案LongVILA,包括系统、模型训练和数据集开发。该全栈解决方案将VILA的可行帧数扩大了128倍(从8帧增加到1024帧),并将长视频字幕得分从2.00提高到3.26(1.6倍),在1400帧视频(274k上下文长度)中实现了99.5%的准确率。
AI21 Labs团队推出Jamba-1.5。AI21 Labs团队提出了基于Jamba架构的新指令微调大语言模型Jamba-1.5。Jamba是一种混合型Transformer-Mamba混合专家架构,可在不同上下文长度下提供高吞吐量和低内存使用率,同时保持与Transformer模型相同或更好的质量。
在一系列学术和聊天机器人基准上进行评估时,Jamba-1.5模型取得了优异的成绩,同时提供了高吞吐量,并在长上下文基准上优于其他开放权重模型。
北邮、国科大推出基于Mamba的可扩展自回归图像生成模型。在这项工作中,来自北京邮电大学和中国科学院大学的研究团队提出了基于Mamba的自回归图像生成模型——AiM。
与现有的通过多放向扫描调整Mamba来处理二维信号的方法不同,AiM直接利用下一个token预测范式来生成自回归图像。这种方法避免了为使Mamba学习二维空间表征而进行大量修改的需要。在ImageNet1K 256*256基准上,AiM模型达到2.21的FID,超过参数数量相当的现有自回归模型,与扩散模型相比具有显著的竞争力,推理速度快2到10倍。
点击“阅读原文”,获取更多大模型论文。
03 政策法规
法官裁定,埃隆·马斯克的X必须披露完整的所有权结构。在周二的一项裁决中,加州一名联邦法官决定公开X控股公司详细的公司披露声明,此举将有效地揭开X母公司(前身为Twitter)和x.AI的股东名单,x.AI是马斯克于2023年创办的人工智能初创公司。马斯克于2022年以440亿美元收购了Twitter,将该公司私有化,并解雇了大约四分之三的员工。
OpenAI表示,加州人工智能安全法案将损害创新。彭博新闻社周三获得的一封发给加利福尼亚州参议员Scott Wiener办公室的信称,这家总部位于旧金山的初创公司表示,该法案将损害人工智能行业的创新,并认为关于这个问题的监管应该来自联邦政府,而不是各州。这封信还引发了人们的担忧,即该法案如果获得通过,可能会对美国在人工智能和国家安全方面的竞争力产生“广泛而重大”的影响。
04 专家观点
打脸“AI灭绝论”!研究反驳:大模型涌现能力不会威胁人类生存。来自达姆施塔特工业大学和巴斯大学的研究团队发现,GPT等LLM尚无法独立地学习或获得新技能,这意味着它们不会对人类构成生存威胁。他们表示,“涌现能力”背后的真相或许比科幻电影更富有戏剧性,许多所谓的“涌现能力”,其实都是AI大模型在面对不熟悉的任务时,依赖于已有的数据和经验做出的“即兴表演”。
相关研究论文以“Are Emergent Abilities in Large Language Models just In-Context Learning?”为题,已发表在AI顶会国际计算语言学年会(ACL)上。
Parker Conrad:太多的软件公司在他们的产品中添加了并不真正有用的人工智能功能。近日,估值135亿美元的人力资源初创公司Rippling的创始人Parker Conrad在Found播客中表示,太多的软件公司一直在他们的产品中添加并不真正有用的新奇AI功能。他说,现在,人们疯狂地争夺AI的资本,以至于整个科技行业都想“将AI精灵粉”撒在他们的所有产品中。
Cohere创始人Aidan Gomez:出售模型使用权正迅速成为一项“零利润业务”。OpenAI和Anthropic每年花费数十亿美元来训练GPT-4和Claude等模型,但竞争性价格倾销使这些平台的业务相当不稳定。Cohere的首席执行官Aidan Gomez在一播客节目中表示,出售模型的使用权正迅速成为一项“零利润业务”。目前,这些人工智能模型的成本高于它们制造的成本。
“这将像一个零利润的业务,因为有太多的价格倾销。人们免费赠送该模型。这仍然是一门大生意,仍然是一个相当高的数字,因为人们需要这项技术——它的增长非常迅速——但利润率,至少现在,将非常紧张。”
加州参议员说,OpenAI反对加州人工智能法案“毫无道理”。OpenAI周二打破了对加州最受争议的人工智能法案的沉默,在给加州参议员斯科特·维纳(Scott Wiener)和州长加文·纽森(Gavin Newsom)的一封信中正式表达了反对意见。这家人工智能巨头认为,Wiener于2月份推出的SB 1047法案将扼杀创新并将人才赶出加州——Wiener很快回答说,这一立场“毫无道理”。
加拿大阿尔伯塔大学研究团队:人工智能模型不能像人类那样学习。加拿大阿尔伯塔大学的Shibhansh Dohare和他的同事们已经测试了最常见的AI模型是否可以适应持续学习。该团队发现,他们很快就会失去学习任何新事物的能力,大量人工神经元在接触新数据后会卡在零值上。研究发现,在经过几千次再训练周期后,神经网络似乎无法学习并且表现不佳,许多神经元似乎“死亡”或值为零。
05 其他
IDC发布中国大模型市场份额报告,百度、商汤、智谱AI位列前三。据《科创板日报》报道,来自IDC的报告数据显示,2023年中国大模型平台市场规模达17.65亿元人民币。百度智能云以19.9%的市场份额获中国大模型平台市场第一;商汤科技以16%份额位居市场第二;智谱AI则是2023年初创企业中的胜出者,位居市场第三。
韩国AI教科书计划遭到家长强烈反对。
韩国计划在学校引入人工智能驱动的数字教科书,这引起了家长和学者的强烈反对,他们担心孩子过度接触数字设备和潜在的错误信息。教育部长Lee Ju-ho本周表示,装有人工智能功能的平板电脑对于韩国学校系统计划的全面改革“至关重要”。这项技术将于明年引入教室,供8岁的学童使用。但韩国政府称,这项提案是世界上第一个此类提案,遭到了许多家长的反对,他们已经对孩子使用智能手机和平板电脑的时间感到焦虑。
56%财富500强公司将AI列为“风险因素”。根据跟踪大型企业公开披露的研究平台Arize AI的研究,总体而言,56%的财富500强公司在其最近的年度报告中将人工智能(AI)列为“风险因素”。这一数字与2022年的9%相比有了惊人的跃升。相比之下,在专门讨论生成式AI的108家公司中,只有33家将其视为机会。这些团体在其年度报告中表示,潜在的好处包括成本效益、运营效益和加速创新。
该群体中超过三分之二的人将生成式AI视为风险。
作家起诉Anthropic在AI训练中侵犯版权。8月20日,Anthropic在加州联邦法院遭到三名作者的集体诉讼,他们表示它滥用了他们的书籍和数十万其他人来训练Claude。作者兼记者Andrea Bartz、Charles Graeber和Kirk Wallace Johnson表示,Anthropic使用他们作品的盗版和其他作品来教Claude响应人类的提示。
GPT-4潜力挖掘:高精度建模基础蛋白质结构。据《科创板日报》报道,罗格斯大学的一项研究表明,GPT-4能高精度模拟简单的氨基酸和蛋白质结构。该科研团队使用GPT-4探索其在基本结构生物学任务中的表现,结果发现其可以准确预测分子结构,相关研究成果已发表在Scientific Reports上。