Scaling 大厂正在找出路 堆砌数据 算力拼AI模型已行不通 Law递减

算力拼AI模型已行不通

:赵雨荷

迈向超级智能系统的AI实验室正意识到,可能需要改换道路。分析指出,相比传统的堆砌计算能力和数据的训练方法,被称为“测试时计算”(Test-time Compute)的新方法更有助于提高AI模型的预测能力。

据TechCrunch报道,多位AI投资者、创始人和CEO透露,近年来AI实验室用于提升模型能力的“AI扩展定律”(AI scaling laws)正显示出边际收益递减的迹象。他们的观点与近期的报告一致,这些报告表明顶尖AI实验室中的模型提升速度已不如以往。

堆砌数据

现在,几乎所有人都开始承认,仅通过增加计算能力和数据量来预训练大型语言模型,并指望其变成某种全知全能模型的道路,是行不通的。 这也许听起来显而易见,但扩展定律曾是开发ChatGPT、提升其性能的关键因素,也可能影响了许多CEO大胆预测通用人工智能(AGI)将在几年内到来的信心。

神经网络

OpenAI和Safe Super Intelligence的联合创始人Ilya Sutskever上周对媒体表示,“所有人都在寻找扩展AI模型的新方式”。本月早些时候,Andreessen Horowitz联合创始人Marc Andreessen在一档播客中提到,当前AI模型似乎都趋向于能力的上限。

大模型

不过,有AI领域的CEO、研究人员和投资者已经开始宣称,行业正进入扩展定律的新纪元:“测试时计算”(Test-time Compute)被认为是一项特别有前景的新方法,能够让AI模型在回答问题前,有更多时间和计算资源进行“思考”。

“我们正看到一种新扩展定律的出现,”微软CEO纳德拉(Satya Nadella)周二在微软Ignite大会上说,他指的是支持OpenAI o1模型的测试时计算研究。

此外,Andreessen Horowitz合伙人、Mistral的董事会成员、曾是Anthropic天使投资人的Anjney Midha在接受媒体采访时表示,“我们现在正处于扩展定律的第二纪元,也就是测试时扩展。”

AI扩展定律失效?

自2020年以来,OpenAI、谷歌、Meta和Anthropic等公司取得的AI模型快速进步,主要归功于一个关键判断:在AI模型的预训练阶段使用更多的计算资源和数据。

在这一阶段,AI通过分析大量数据集中的模式来识别和存储信息。当研究人员为机器学习系统提供充足的资源时,模型通常在预测下一个词或短语方面表现更好。

第一代AI扩展定律让工程师通过增加GPU的数量和数据量来提升模型性能。尽管这种方法可能已经达到瓶颈,但它已经改变了整个行业的版图。几乎每家大型科技公司都押注AI,而为这些公司提供GPU的英伟达如今已成为全球市值最高的上市公司。

然而,这些投资是基于扩展能够持续发展的预期而做出的。毕竟,扩展定律并不是自然、物理、数学或政府制定的法律,它并未被任何人或事物保证会以相同的速度继续下去。即便是著名的摩尔定律,也在运行了较长时间后逐渐失效。

Anyscale联合创始人、前CEO Robert Nishihara在对媒体表示,

Scaling

尽管如此,AI模型开发者可能仍会继续追求更大的计算集群和更大的数据集进行预训练,而这些方法可能仍有一定的提升空间。例如,马斯克最近完成了一台拥有10万GPU的超级计算机Colossus,用于训练xAI的下一代模型。

但趋势表明,仅通过现有策略使用更多GPU无法实现指数级增长,因此新的方法开始获得更多关注。

测试时计算:AI行业的下一大赌注

当OpenAI发布其o1模型的预览版时,就宣布这属于独立于GPT的新系列模型。

OpenAI主要通过传统的扩展定律(即在预训练阶段使用更多数据和更多计算能力)改进了其GPT模型。但据称,这种方法现在的增益已不再显著。 o1模型框架依赖于一个新概念——测试时计算(test-time compute),之所以这样命名,是因为计算资源是在接收到提示后(而不是之前)才使用的。分析认为,这种技术在神经网络背景下的探索还不多,但已经表现出潜力。

一些人已经将测试时计算视为扩展AI系统的下一种方法。

Andreessen Horowitz的Midha表示,

著名AI研究员Yoshua Bengio则表示,

预训练

例如,在10到30秒的时间里,OpenAI的o1模型会多次重新提示自己,将一个复杂的问题分解为一系列更小的问题。现负责OpenAI o1工作的Noam Brown尝试开发可以击败人类的扑克AI系统,在最近的一次演讲中,Brown表示,他注意到人类扑克玩家在出牌前会花时间考虑不同的情景。2017年,他引入了一种方法,让模型在出牌前“思考”30秒。在此期间,AI会模拟不同的子游戏,推演不同场景可能的结果以确定最佳行动。最终,这种AI的预测表现比他以前的方法提升了7倍。

需要注意的是,Brown在2017年的研究并未使用神经网络,因为当时它们尚未普及。然而,上周麻省理工学院的研究人员发表了一篇论文,表明测试时计算显著提高了AI模型在推理任务上的表现。

目前尚不清楚测试时计算如何大规模推广。这可能意味着AI系统在解决难题时需要非常长的“思考”时间,可能是数小时甚至数天。另一种方法可能是让AI模型同时在许多芯片上“思考”问题。

Midha表示,如果测试时计算成为扩展AI系统的下一步,对专注于高速推理的AI芯片的需求可能会大幅增加 ,这对Groq或Cerebras等专注于快速AI推理芯片的初创公司来说是好消息。如果找到答案与训练模型同样需要大量计算资源,那么AI领域的“挖掘工具”提供商将再次受益。

无论AI研究的前沿情况如何,用户可能在一段时间内感受不到这些变化的影响。不过,AI开放商将不遗余力地继续快速推出更大、更智能、更快的模型,这意味着多家领先的科技公司可能会调整其推动AI边界的方法。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里


部混合专家(MoE)已经成为AI领域的主流架构,无论开源的Grok还是闭源的GPT-4都深受其影响。 然而,这些模型的专家数量通常限制在32个或更少。 近期,谷歌DeepMind的研究成果打破了这一限制,他们提出了PEER(参数高效专家检索)技术,使得MoE模型的专家数量能够扩展到百万级别,同时保持计算成本不变。 在Transformer架构中,注意力层和前馈层(FFW)是关键。 尽管扩展模型容量面临挑战,MoE模型通过将数据路由到小型专家模块,避免了FFW的计算成本剧增。 然而,增加专家数量并非越多越好,需要考虑模型参数、训练数据量和算力等因素。 研究发现,存在一个最优粒度,超过这个点性能可能会停滞不前。 今年年初的研究显示,当增加训练数据的使用时,高粒度的MoE能够提升性能。 PEER的创新在于它设计了一种新型层,每个专家仅包含一个神经元和一个隐藏层,通过多头检索机制,实现了高效的知识检索。 这种设计允许专家间共享隐藏层,提高参数效率和知识迁移。 用实验证明,通过增加专家数量和保持激活参数不变,可以在保持性能的同时,减小单个专家的规模,形成大量的小型专家。 实验结果显示,PEER在isoFLOP分析中表现出色,预训练模型在各种语言建模数据集上取得了优异的性能,并且在百万专家的使用上,利用率接近100%。 消融实验进一步证实了专家数量和活跃专家数量对模型性能的影响。 专家使用率接近100%,且批归一化有助于提高专家使用均匀性和降低困惑度。 这些发现表明,PEER在处理大量专家时表现出了高效率和有效性。 最后,PEER背后的DeepMind研究科学家Owen He博士,凭借其在持续学习和基础模型领域的贡献,正在推动AI技术的前沿发展。

到底好在哪里 好东西
超越信息牵引向文学内部探索