OpenAI估值将超1000亿美元；为什么大模型无法拼写“strawberry”

OpenAI估值将超1000亿美元，英伟达、苹果和微软参投。8月30日消息，据外媒援引知情人士消息，苹果、英伟达、微软已洽谈加入OpenAI的新一轮融资，融资额将达数十亿美元。这将使OpenAI的估值超过1000亿美元。本轮融资由风投公司Thrive Capital领投。Thrive Capital将投资约10亿美元。

OpenAI：“草莓”项目将为“猎户座”大模型提供训练数据。根据The Information消息，OpenAI已经向美国国家安全官员展示了“草莓”（Strawberry）项目，并保证在安全、合理的范围内开发和使用这一技术。同时，草莓生成的合成数据将用于支持猎户座（Orion）大模型的开发。

智谱推出新一代基座大模型GLM-4-Plus。近日，智谱在KDD 2024现场重磅推出了新一代全自研基座大模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus和文生图模型CogView-3-Plus。其中，GLM-4-Plus使用了大量模型辅助构造高质量合成数据以提升模型性能；利用PPO有效提升模型推理（数学、代码算法题等）表现，更好地反映人类偏好。

Anthropic公开让Claude“进步”的系统提示词。近日，Anthropic公开发布了其Claude模型的系统提示词。这一罕见举动让用户得以一窥其大语言模型（LLM）的内部运作机制。系统提示词通常被视为专有信息，对塑造AI的行为和能力至关重要。这次发布包含了Claude 3.5 Sonnet、Claude 3 Opus和Claude 3 Haiku模型的详细指令。

这些提示词概述了模型行为的具体指南，包括禁止面部识别和访问链接，以及让模型以Anthropic认为客观的方式处理有争议的话题。

英伟达公布Blackwell更多细节：支持10万亿参数模型进行实时推理。据《科创板日报》报道，英伟达公布了下一代GPU架构Blackwell的更多细节信息，以及未来的产品路线图。

英伟达Blackwell是通用计算全栈矩阵的终极解决方案，由多个英伟达芯片组成，包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机，可支持多达10万亿参数的模型进行训练和实时推理。

中国科学院地化所发布国际首个月球专业大模型。据《科创板日报》报道，在2024数博会上，中国科学院地球化学研究所与阿里云联合发布国际首个“月球科学多模态专业大模型”。该大模型以视觉、多模态及自然语言等通义系列模型为基模，结合RAG检索增强等技术，于阿里云百炼专属版进行微调及训练。目前在月球撞击坑年代和形态判别上，月球专业大模型的准确率已达到80%以上。

智谱AI、清华团队发布CogVLM2技术报告。

在这项工作中，来自智谱AI和清华大学的研究团队提出了CogVLM2系列，这是用于图像和视频理解的新一代视觉语言模型，包括CogVLM2、CogVLM2-Video和GLM-4V。图像理解模型CogVLM2继承了视觉专家架构，并在预训练和后训练阶段改进了训练方案，支持最大1344×1344像素的输入分辨率。

视频理解模型CogVLM2-Video整合了带有时间戳的多帧输入，并提出了自动时间基础数据构建方法。CogVLM2系列在MMBench、MM-Vet、TextVQA、MVBench和VCGBench等基准测试中取得了SOTA。

谷歌：扩散模型是实时游戏引擎。在这项工作中，谷歌团队提出了首个完全由神经模型驱动的游戏引擎GameNGen，其可以在长轨迹上与复杂环境进行高质量的实时交互。

GameNGen可以在单个TPU上以每秒20帧以上的速度交互模拟经典游戏DOOM。下一帧预测的PSNR为29.4，与有损JPEG压缩相当。在区分游戏短片和模拟短片方面，人类评分员的表现仅略高于随机概率。GameNGen分两个阶段进行训练：(1)一个强化学习（RL）agent学习玩游戏，并记录训练过程；(2)训练一个扩散模型，以过去的帧和动作序列为条件生成下一帧。

条件增强可在长轨迹上实现稳定的自动回归生成。

通过下一个token预测进行上下文模仿学习。在这项工作中，来自加州大学伯克利分校的研究团队探讨了如何增强下一个token预测模型，以便在真实机器人上执行上下文模仿学习。他们提出的In-Context Robot Transformer（ICRT）可对传感器运动轨迹进行自回归预测，而无需依赖任何语言数据或奖励函数。

通过使用由图像观察、动作和状态元组组成的新任务的传感器运动轨迹（通过人类远程操作收集）来提示模型，这种方法可在测试时灵活、无需额外训练地执行新任务。

智谱AI、清华团队推出大模型规则理解新基准。在这项工作中，为评估大语言模型（LLM）的综合规则理解、执行和规划能力，来自智谱AI和清华大学的研究团队推出了一种新基准LogicGame。

与传统基准不同，LogicGame提供了包含一系列初始状态规则的多样化游戏，要求模型理解并应用预定义的规则来解决问题。从简单的规则应用到复杂的推理链，LogicGame定义了不同难度的游戏场景，以便对模型在规则理解和多步骤执行方面的性能进行精确评估。利用LogicGame，他们测试了各种LLM，并发现了它们在基于规则的逻辑推理能力方面存在的明显不足。

Hugging Face：构建并更好地理解视觉语言模型。在这项工作中，来自Hugging Face的研究团队推出了一个构建视觉语言模型（VLMs）的教程。他们首先全面概述了当前的SOTA方法，强调了每种方法的优缺点，探讨了该领域的主要挑战，并为尚未充分开发的领域提出了有前途的研究方向。

然后，他们介绍了构建Idefics3-8B的实际步骤，Idefics3-8B是一个功能强大的VLM，其性能优于其前身Idefics2-8B，同时还能在开放数据集上进行高效训练，并使用简单直接的管道。此外，他们发布了该模型以及为训练该模型而创建的数据集。

浙大、腾讯团队推出定制化视频生成框架CustomCrafter。

在这项工作中，来自浙江大学和腾讯AI Lab的研究团队提出了定制化视频生成框架CustomCrafter，其可以保留模型的动作生成和概念组合能力，无需额外的视频和微调来恢复。在保留概念组合能力方面，他们设计了一个即插即用模块，用于更新视频扩散模型（VDM）中的一些参数，从而增强模型捕捉外观细节的能力和对新对象进行概念组合的能力。

在运动生成方面，他们发现VDM在去噪的早期阶段倾向于恢复视频的运动，而在后期阶段则侧重于恢复主体细节。因此，他们提出了动态加权视频采样策略。利用主体学习模块的可插拔性，他们在去噪的早期阶段减少了该模块对运动生成的影响，保留了VDM运动生成的能力。在随后的去噪阶段，他们恢复该模块以修复指定主体的外观细节，从而确保主体外观的保真度。实验结果表明，与之前的方法相比，该方法有着显著的改进。

降低99.7%计算成本，多模态大语言模型“视觉表征定律”。在这项工作中，来自斯坦福大学和加州大学伯克利分校的研究团队提出了多模态大语言模型（MLLM）“视觉表征定律”（Law of Vision Representation）。它揭示了跨模态对齐、视觉表征的对应性与MLLM性能之间的强相关性。他们使用跨模态对齐和对应得分（AC分）来量化这两个因素。

通过涉及13种不同视觉表征设置的大量实验和8个基准的评估，他们发现AC分数与模型性能呈线性相关。利用这种关系，他们能够只识别和训练最佳视觉表示法，而无需每次都对语言模型进行微调，从而降低99.7%的计算成本。

加州人工智能法案获得立法机构通过。加州的SB-1047法案，即《前沿人工智能模型安全创新法案》，已经通过了州议会的投票，并提交给州长Gavin Newsom签署。这项法案旨在为大型AI系统的开发和部署制定安全标准，要求对可能用于网络攻击、发展大规模杀伤性武器或自动化犯罪的AI系统进行测试和监管。法案的支持者认为这将有助于确保公众安全，而反对者则认为这可能会抑制创新，尤其是在AI领域的快速发展阶段。

马斯克：支持加州的人工智能法案。马斯克日前表示，他支持加州一项拟议中的法案，该法案旨在对该州的人工智能进行监管，尽管一些政界和科技界的领导人对此表示反对。马斯克在社交平台X（前身为Twitter）上表示：“这是一个艰难的决定，可能会引发一些人的不满，但综合考虑，我认为加州应通过SB-1047人工智能安全法案。

在过去20多年里，我一直支持对人工智能进行监管，就像我们监管任何可能对公众构成风险的产品或技术一样。”

美国人工智能安全研究所：将提前使用OpenAI、Anthropic最新模型。OpenAI、Anthropic与美国国家标准技术研究所（NIST）下属的AI安全研究所签署了一份具有里程碑意义的合作协议。这份协议预示着AI模型安全性研究、测试与评估工作将迈入一个全新的阶段。

根据协议内容，AI安全研究所将在OpenAI和Anthropic的新AI模型公开发布前后获得独家访问权，以进行深入的安全评估。这一做法与英国AI安全研究所的测试机制相呼应，允许开发者在模型发布前进行严格的安全审查。

贵州：加快培育一批高水平行业大模型。

据财联社报道，中共贵州省委书记、省人大常委会主任徐麟在2024中国国际大数据产业博览会开幕式上表示，贵州将着力构建算力协同发展机制，培育以人工智能为驱动的智算发展新模式。打造全国领先的智算集群，建立与粤港澳大湾区、长三角、成渝等枢纽节点联动机制，创新“东数西算”落地路径。促进智算与人工智能协同发展，加快引进一批通用大模型，推动通用大模型训练及推理与国产算力适配。

依托华为云盘古通用大模型等，加快培育一批高水平行业大模型。以具体场景为切入口，推动行业大模型轻量化应用，支持中小企业开发应用垂直行业大模型。

上海市经信委：支持临港率先推动自动驾驶等领域垂类大模型落地应用。据财联社报道，上海市经济信息化委副主任张宏韬日前表示，上海市经济信息化委将一如既往地支持临港新片区加大力度，全面推进新型工业化、打造产业增长极，培育新质生产力。

其中，上海市经信委将继续支持前沿产业高质量发展。支持临港率先推动自动驾驶、工业制造等领域垂类大模型落地应用，打造上海市智算高地。支持临港培育大飞机国家级先进制造业集群，建设世界级民用航空城。

Stephen Wolfram：我们需要哲学家来研究AI的“大问题”。英国著名科学家Stephen Wolfram表示，他与一些正在将人工智能推向世界的公司进行了“可怕的讨论”，这些公司显然没有考虑到这一点。

半个世纪以来，Wolfram一直处于计算机科学的前沿，他看到了哲学与技术之间的联系，这可能是一个信号，表明现在是时候开始以更广泛的方式解决这些围绕人工智能使用的问题，而不仅仅是一个数学问题。他认为，也许让哲学家参与讨论是实现这一目标的好方法。

环保人士称：马斯克的xAI加剧了当地环境的污染。

马斯克的AI初创公司xAI正面临环保和健康倡导者的批评，原因是该公司在未获得必要的许可的情况下在其数据中心使用燃气涡轮机，造成了田纳西州孟菲斯市的空气污染。南方环境法律中心向位于Shelby县的数据中心所在地区的美国环境保护署和卫生部门发了一封信，信中写道：“尽管安装了近20台燃气涡轮机，总容量约为100兆瓦，足以给大约5万户家庭供电，但xAI似乎尚未为这些涡轮机申请任何空气许可证。

”该环境法律倡导组织呼吁该县卫生部门核实xAI是否在未获得空气许可证的情况下运行这些涡轮机，并采取执法行动。他们表示，燃气涡轮机会排放大量气体，使得孟菲斯本来就很差的空气质量更加糟糕。

为什么大模型无法拼写“strawberry”？在“strawberry”这个词中，“r”出现了多少次？根据GPT-4o和Claude等AI产品的回答，答案是两次。

这是因为大多数大语言模型（LLM）都基于Transformer构建。Transformer模型将文本转化为token，根据模型的不同，token可以是完整的单词、音节或字母。Transformer无法有效地接收或输出实际文本。相反，文本被转换成其自身的数字表示，然后将其置于上下文中，从而帮助AI得出合乎逻辑的响应。

主流网站对苹果的AI抓取说“不”。

苹果公司推出了一款工具，允许新闻机构、媒体选择“退出其人工智能训练”。不到三个月时间，许多知名的新闻媒体和社交平台已经开始采用这项工具。

据《连线》杂志消息，包括Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、《今日美国》网络以及《连线》杂志的母公司康泰纳仕集团在内的多家机构选择将自己的数据排除在苹果的人工智能训练之外。

OpenAI估值将超1000亿美元；为什么大模型无法拼写“strawberry”｜一周热门学术头条