万卡算力和万亿参数大模型时代 AI存储何时爆发

作者： 2024年11月20日网红浏览

图片系AI生成

当前，大模型最显著的特征之一就是参数量呈指数级增长。根据Scaling Law（尺度定律）的规则，人工智能神经网络的参数量越多，模型越大，对于知识的总结归纳和推理泛化能力就越强。因而，从ChatGPT出现验证了“涌现”能力，到如今的两年里，业内首要关注的就是算力，怎样突破硬件算力，怎样以尽可能少的Token数量训练好一个模型。但在这一显著挑战之外，数据量猛增带来的数据存储，可能是仅次于算力的另一大技术难点。

大模型“卷”向存储

年初，一位长期关注AI大模型应用的CTO与钛媒体APP交流中表示：“企业使用外部数据训练大模型，长文本是关键思路之一。但问题是，长文本处理特别消耗内存和硬件，因为模型训练和推理的内存变大，模型效果才能更好。这也导致在其每次查询的成本高于GPT-4，而后者基于微调。这不是ToB企业能够负担得其起的。”

他对钛媒体APP解释：微软提出了大模型的“不可能三角”，如果希望模型的微调能力很强，那么模型参数就不会很大，或者小样本的学习能力不会很强。长文本的逻辑是，让小样本学习的能力变强，同时放弃微调，这样模型参数肯定就会相应扩大。

彼时，正值国内长文本热潮。除了最早的Kimi，阿里巴巴、百度、360等众多厂商相继宣布进军长文本，从最初的可处理200万字上下文，迅速扩张至1000万字长文本能力。而在这股热潮中，也同样遗留了诸多待解决的问题。

根据技术博客Medium上一位AI工程师Szymon Palucha的记录：

为此，最简单的办法是降低参数精度，因为现在多数大模型可以半精度使用，而不会显著影响准确性。这意味着大模型在实际运行时，需要一定的内存或存储空间来存储和处理数据，大模型所需的内存量会根据上下文窗口的大小而变化。窗口越大，所占用的内存也就越多。

钛媒体注意到，这也是当下大模型应用厂商在破解算力问题之外，遇到的另一大技术困难点，去年还没有太多人关注——数据量猛增带来的数据存储、内存带宽、时延等一系列问题。并且随着需求的爆发，已经带来一些技术侧产品侧的演进。

支持万卡算力和万亿参数LLM，存储两道槛

目前全球的科技巨头都在布局万卡算力集群和万亿参数规模的大模型训练，对于这些集群而言，高性能的计算、存储和网络缺一不可。从存储层面来看如何提供支撑？一是要至少达到TB级带宽、百万级IOPS的存储性能，未来可能会演变为数十TB、上亿级IOPS的需求；二是要提升数据跨域调度、数据安全、数据可持续性访问等能力。

回顾过去两年间大模型带来的存储挑战，可以从三个阶段总结：

2022年初： 大模型爆发初期，国内有超过100家的大模型公司开始迅速进行市场布局。在这个阶段，模型训练追求的就是“快”，通过IT基础设施的方案优化，有效地提升GPU效率，加速模型的训练并得到市场认可，即可抢占市场先机。

为此，模型训练的数据加载、模型训练过程中的断点续训要尽可能地降低对计算时间的占用，在万卡算力集群万亿参数的大模型的快速训练时，小于1分钟断点续训，需要存储提供TB级的带宽，同时小模型的训练推理则对IOPS提出更高要求，存储系统需提供超过百万级的IOPS。

2023年底到2024年初： 随着模型在各行业落地的需求，在很多的行业场景里， 行业数据缺少积累，过去分散在各终端、地域数据的夸协议、夸地域高效率共享整合 。这就要求存储具备数据跨域调度，通过异构纳管实现全局命名空间管理，提升数据汇集、分析的效率。

2024年下半年开始：模型的真实落地，对数据质量要求更高，语料公司需要将数据汇集并进行精加工。 大模型的行业化落地过程中，为了提升通用模型的专业化能力，训练出精度更高的模型，要求有更高质量的数据集。为得到高质量数据，原始数据要经过粗加工、精加工等多个作业环节。这个阶段，对数据的安全存储和数据可持续性访问提出了更高要求。

浪潮信息存储产品线副总经理刘希猛指出，模型参数量、训练数据量、GPU算力、网卡性能、GPU规模近些年均在飞速增长，原有存储不足以应对AI的快速发展。无论是海量训练数据加载、PB级检查点断点续训，还是高并发推理问答等，存储性能直接决定了整个训练推理过程中的GPU利用率。特别在万卡集群规模下，较差的存储性能会严重增加GPU闲置时间，导致模型落地困难、业务成本剧增。因此，现代存储已经由传统的数据载体和数据仓储，转化为AI发展的关键组件。存储系统正逐渐演进到提供更高的吞吐量，更低的时延，更高效的数据管理。

AI存储何时爆发？

既然针对AI场景的存储系统在前几年并没有得到太多重视，从需求侧，何时会迎来新的爆发点？“过去一年，存储的增量市场基本全部来自于AI场景。”刘希猛对钛媒体APP解释。

如果将未来的AI市场分为大致两类：一类是AI产业化的市场，在AI产业化进程中，更多的关注点可能集中在了模型训练，紧随其后的是语料生产，然后是算法优化。那么，存储首先就会在模型训练、语料生产领域产生价值，特别是语料，从今年开始就已有迹象，并在接下来两年里实现快速增长。

在刘希猛看来，从目前来看，大模型训练中最紧缺的是数据，各行业在可能都会开始着手收集各自领域的数据，并进行相应的数据加工处理。算力方面，尽管有人认为算力建设已接近泡沫阶段，甚至有些用力过猛。这一判断可能在一定程度上具有方向性的正确性。接下来，算力的发展可能会进入一个相对平稳的阶段。

第二类是产业的AI化，即大模型真正落地到行业并产业实际价值，可以观察到一些领域已经先行一步。例如，金融领域的量化交易、证券交易，在科研领域，AI也开始被用来辅助科研工作。此外，制造业也是AI应用的一个重要领域。这两方面都会对AI存储市场带来比较好的促进作用。

刘希猛还指出，当前AI存储面临的挑战尚未完全解决，若继续向前发展，其实还是要从性能、效率以及可靠性三方面入手。一是高性能，以解决混合AI负载对存储读写带宽、IOPS，以及低时延的要求；二是高效率，通过存储支持文件、对象、大数据等非结构化协议融合互通，全局命名空间等，减少多份数据重复存储，以及数据夸协议、夸区域、夸系统调度检索的问题；三是高韧性，通过故障的快速恢复、故障前的精准预测降低系统异常时的性能影响，以及服务的连续性，同时强化数据保护与安全防护能力，保证数据的完整、一致、持续可访问。

目前国内外在建千卡集群、万卡集群，且未来可能还会出现更大规模的集群。想要达到同等算力，若是采用国产GPU，可能需要不仅达到十万卡规模，而是更为庞大的集群。

随着集群规模的扩大，除了存储本身面临的挑战外，还将带来存储整体方案的挑战。这涉及从存储到前端网络，再到算力节点的整个链条。其中， 网络的选择成为一个关键问题。 国内之所以更多地使用RoCE网络，是因为国内的集群规模需求更大，而IB网络在扩展规模上有所限制。RoCE网络与存储及上层之间的协同性，尤其是超大规模集群的协同性上，可能会成为新的关注点。

钛媒体注意到，RDMA(Remote Direct Memory Access)全称远程内存直接访问技术，是一种数据传输技术。目前算力集群对网络的建设在2022年之前基本会选择“二层虚拟网络”，随着AI应用的爆发，2023年至今已经在尝试智能无损网络和以太网，并且往往围绕性能、成本、生态系统和兼容性等方面进行权衡。RoCE就是一项基于以太网的RDMA技术。

甲骨文公司中国区技术咨询部高级总监嵇小峰与钛媒体APP交流中同样指出，大规模集群除了GPU数量多之外，同时具备网络低延时和高带宽的特性。从基础设施角度来看，大量GPU集中部署会带来供电和冷却方面的巨大挑战。同时，在训练过程中，对存储的需求同样至关重要。因为训练往往涉及成千上万块GPU的协同作业，一旦有少数GPU（如一块或两块）出现故障，整个训练进度可能会因此延误。

例如，今年9月亮相的Oracle Zettascale算力集群，目前可提供13万多颗GPU，相当于可提供2.4 ZFLOPS的云端算力。为进一步增强网络的低延迟和高带宽，Oracle采用支持两种网络协议：InfiniBand和RoCEv2，这是一种增强版的以太网。这两种技术均具备一种核心绕行机制，能让网络流量避开常规路径中必须穿越的某些组件，以实现更迅速的传输至目标地。这样的设计促进了数据更快地抵达GPU，进而提升了处理效率。

随着AI存储需求的不断涌现，包括GPU、模型架构、存储解决方案及网络技术的各大厂商，正纷纷加速布局，力求在构建超大规模集群的浪潮中抢占先机。 （本文首发于钛媒体APP， | 杨丽， | 盖虹达）

千卡过去式，万卡是标配！国产GPU终于盼来了万卡集群

在AI技术的快速发展中，万亿参数大模型与超大规模的万卡集群紧密关联。大模型公司如META、微软等已经大量采购英伟达的H100显卡，构建起强大的算力集群，以应对“暴力美学”式的参数和算力需求。国产GPU在这一进程中面临着挑战，但中国工程院院士郑纬民强调了国产化的必要性。近日，摩尔线程发布了其国产GPU万卡集群解决方案——“夸娥万卡智算集群”，标志着国产GPU正式迈入万卡时代。从千卡到万卡，这一跨越涉及复杂的技术难题，如如何实现高密度的算存、高性能网络连接和高效并行计算。夸娥万卡集群通过优化分布式并行计算、高效显存管理和超长序列训练，以及软硬件全栈的优化，实现了万卡以上规模，有效计算效率达到国际60%的标准，且稳定性达到99%以上。此外，夸娥集群不仅关注大模型的规模，还强调通用性，支持AI在多个领域的应用，如物理仿真、3D、HPC等。通过MUSA编程语言和CUDA兼容性，摩尔线程推动了生态适配，助力国产大模型快速融入市场。与中国移动、中国联通等巨头合作，摩尔线程展示了国产算力不仅“可用”，更向着“好用”的目标迈进，标志着国产GPU在AI主战场中占据了重要位置。

中国移动云信正式启动

中国移动云信已经正式启动。这一消息是在2024年5月24日的中国移动人工智能生态大会上宣布的。中国移动开放了包括大模型训练基地、大模型评测基地、大模型产业创新基地在内的三大人工智能基地。这些基地旨在为社会提供从大模型训练到AI原生应用孵化的一站式产业融通带动服务，以加速大模型的产业化、规模化发展。大模型训练基地是中国移动为大模型提供训练所需的智算资源及训推一站式工具链的服务平台。基于超过万卡的智算集群，该基地能为全社会提供超大规模、超长稳定、超高效率的大模型训练服务，并推出了两大优惠政策：一是已经向社会全面开放了九天众擎百亿大模型，后续还将陆续开放千亿大模型；二是提供一定规模的普惠算力用于模型共建。该基地还能针对千亿、万亿大模型训练所需，提供异构算力调度、万卡并行训练、断点自动续训、通智边一体化训推服务，承载训练及大颗粒算力需求，实现千卡并训任务20天稳定训练，千亿参数模型30天预训练一轮，以加速教育、医疗等各行业各场景AI模型的稳定开发训练。大模型评测基地则是中国移动为大模型优化及选型提供的一站式评测解决方案服务平台。中国移动联合权威机构首创了全面、客观、开放的“弈衡”大模型多维度评测体系，该体系包括50项评测指标、200项评测场景、100多万专属评测数据集，评测结果的客观性跻身国内外主流基准第一阵营。评测基地还依托自研的大模型评测智能体，支持评测数据自学习和用例自编排。大模型产业创新基地是AI融合创新应用孵化平台，已发布四大模型产业创新基地，并有多家龙头企业入驻。该基地旨在推动AI融合创新应用的发展，为社会带来更多创新和价值。总的来说，中国移动云信的正式启动以及三大人工智能基地的开放，将为中国移动的产业生态和AI发展提供强大的支持，推动经济社会的高质量发展。

人工智能万卡 GPU 集群的硬件和网络架构

在当今AI领域的快速发展中，大规模GPU集群的硬件配置与网络设计成为关键。以OpenAI的ChatGPT和Meta的LLaMA3为例，它们的训练需求推动了对强大计算资源的需求，包括数千个A100或H100 GPU的集群。构建这样的集群涉及多个核心组件，包括：

NVIDIA的DGX A100和H100 SuperPod是实例，A100 System通过6个NVSwitch实现全互联，而SuperPod SU则展现其可扩展性。具体到100或140节点的SuperPod，它们采用Fat-Tree拓扑，优化了带宽和端口利用，确保GPU间高效通信。在构建过程中，不仅要关注硬件配置，冷却、电源管理和网络优化同样重要。

在业界解决方案中，两层和三层Fat-Tree拓扑是常见选择，它们为大模型训练提供了稳定和高效的网络环境。例如，网络的三层架构中，Spine Switch与Leaf Switch之间采用分组Full Mesh设计，确保数据传输的灵活性和稳定性。

总之，构建和优化大规模GPU集群是技术与策略的结合，需要全面考虑硬件升级、网络设计与散热等多方面的因素，以应对不断增长的AI计算需求。