国产大模型竞技场首超GPT

作者： 2024年10月16日直播浏览

国产大模型 首次在公开榜单上超过GPT-4o！

就在刚刚，“大模型六小强”之一的零一万物正式对外发布新旗舰模型—— Yi-Lightning （闪电）。

在大模型竞技场（Chatbot Arena）上，Yi-Lightning性能直冲总榜单并列第6 ，数学分榜并列第3，代码等其它分榜也名列前茅。

总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平，超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。

同时，国内清华系大模型公司智谱AI的 GLM-4-Plus 也杀进了总榜，位居第9 位。

该榜单结果来自全球累积超千万次的人类用户盲测投票。

前段时间大模型竞技场还刚刚更新了规则，新榜单对AI回答的长度和风格等特征做了降权处理，分数更能反映模型真正解决问题的能力。

这次Yi-Lightning杀出重围，Lmsys团队特意发帖子，称这是竞技场上的大新闻：

大模型竞技场总榜第六、国产第一

细看大模型竞技场分类榜上的“赛况”，Yi-Lightning各项能力都排在前头。

在中文能力上，Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。

Yi-Lightning跃居并列第二，和o1-mini相差无几。

数学能力，Yi-Lightning和Gemini-1.5-Pro-002并列第3，仅次于o1-preview、o1-mini。

代码能力Yi-Lightning排名并列第4。

另外在 Hard Prompts 和 Longer Query 分榜，Yi-Lightning也都排在第4位。

最后同样值得关注的是，竞技场新功能 风格控制过滤 ，确保分数反映模型真正解决问题的能力，而不是用漂亮的格式、增加回答长度。

在对长度和风格等特征做了降权处理后，所有模型分数均有下降，Yi-Lightning排名变化不大，整体还与GPT-4o、Grok-2同一梯队。

发布会上，零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。

Yi-Lightning主打一个“推理速度更快，生成质量更好”。

相比上半年Yi-Large，Yi-Lightning首包速度提升1倍，推理速度也提升了4成。

像是翻译下面这种文学作品，Yi-Lightning不仅速度更快：

而且用词更精准，更具文学色彩：

那么Yi-Lightning是如何做到的？

好用还得极速

Yi-Lightning采用混合专家模型架构。

底层技术上，Yi-Lightning在以下方面进行了提升。

首先是优化 混合注意力机制 （Hybrid Attention），只在模型的部分层次中将传统的全注意力（Full Attention）替换为滑动窗口注意力（Sliding Window Attention）。

由此以来，模型在保证处理长序列数据高性能表现的同时，还能大大降低推理成本。

Yi-Lightning还引入了跨层注意力（Cross-Layer Attention, CLA），允许模型在不同的层次之间共享键（Key）和值（Value）头，减少对存储需求。

这使得Yi-Lightning能在不同层次之间更有效地共享信息。

总的来说，KV cache缩小了2-4倍，同时将计算的复杂度从O(L²)降至O(L)。

其次，Yi-Lightning还采用了 动态Top-P路由机制 。

也就是说，Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——

训练过程中会激活所有专家网络，使模型能学习到所有专家知识；而推理阶段，根据任务的难度，模型会选择性激活更匹配的专家网络。

另外，之前有一些传言称国内大模型“六小强”，有一些已经不做预训练了，李开复博士这次在发布会上直接“辟谣”：

而且在模型预训练阶段，团队还积累了丰富的 多阶段训练方法 ，将整个训练分为两块，一块做好以后就把它固定起来，然后在这个固定的模型上再做后段训练。

训练前期，更注重数据多样性，使得Yi-Lightning尽可能学习不同的知识；训练后期更重内容更丰富、知识性更强的数据。

同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。

李开复博士还表示，零一万物开发模型讲究“模基共建”，也就是 共建模型和基础架构 。

模型的训练、服务、推理设计，与底层的AIInfra架构和模型结构必须高度适配。

这样做的目的，不仅是让模型更好，而且让它在推理的时候能够更便宜。

再加上以上种种抬升“性价比”的技术加持，所以Yi-Lightning这次也是打到了白菜价——

0.99元每1M token

在中文等方面，Yi-Lightning比肩OpenAI的o1-mini，o1-mini的定价是每百万输入3美元，每百万输出12美元。

Yi-Lightning每百万token只需0.99RMB也是打到了骨折。

但李开复博士表示，即便这样也：不亏钱。

除了发布新模型，零一万物这次还首发了 AI2.0数字人 方案。

目前该数字人已接入Yi-Lightning，实时互动效果相比以往更强更自然了，belike：

https://www.toutiao.com/article/7426244808324284968/

最后谈起和国外头部大模型的差距，李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。

参考链接：[1]https://x.com/lmarena_ai/status/1846245604890116457[2]https://x.com/01AI_Yi/status/1845776529185476613

Llama 3.1上线就被攻破：大骂小扎，危险配方张口就来！英伟达推出定制模型服务了

刚刚发布的Llama 3.1在甫一上线之际就遭遇了破解，由著名黑客Pliny the Prompter成功攻破。这位越狱大师不仅挑战了模型的防御能力，还展示了如何利用模型的指令遵循特性实施攻击。他表示，这样的测试有助于发现漏洞，促进修复，同时他希望挑战AI背后的研究人员。 Pliny的方法巧妙地利用了大模型的复杂指令处理能力，通过设定格式规则和语义反转，让模型在遵循指令的同时掉入陷阱。例如，通过要求模型先拒绝请求再进行语义反转，实际上引导模型说出本来不应该提供的答案。然而，Llama 3.1并非全无漏洞。一项研究发现，使用过去时态可以轻易绕过其安全措施。在应对棘手问题时，如9.11和9.9哪个更大、逆转诅咒和爱丽丝漫游仙境问题，Llama 3.1表现平平，有时甚至会出错或忘记语言切换。尽管如此，8B小模型微调后的Llama在聊天、总结和信息提取任务上表现出优于GPT-4o mini+提示词的优势。 Meta通过开放Llama 3.1，鼓励了用户进行个性化定制。英伟达推出了NVIDIA AI Foundry和NVIDIA NIM推理微服务，支持企业创建自定义Llama模型，利用自家数据和合成数据进行训练，并提供NeMo Guardrails安全边界技术。这意味着，用户不仅能够改进模型，但需确保新模型名称包含Llama字样以表明其与原模型的关系。最后，对于想要尝试Llama 3.1的用户，可以访问大模型竞技场（）、HuggingChat（/chat）或Poe（）平台进行试用。尽管上线初期服务器压力巨大，但这些平台提供了试玩的机会。

黑马！大模型竞技场榜单更新，国产玩家首次进入全球总榜前10

国内大模型竞技场榜单更新，零一万物旗下的Yi-Large千亿参数闭源大模型跃升至总榜第七名，成为国产大模型中的领先者，其成绩与GPT-4-0125-preview相近。同时，智谱华章的GLM-4-0116也进入了总榜，位居第15位。这些成就基于超过1170万全球用户的盲测投票数据，且竞技场已修改规则，确保公平竞争，禁止模型在亮明身份后继续投票。 Yi-Large在前6名中，与其他GPT系列和谷歌的Gemini、Anthropic的Claude一同竞争。零一万物创始人兼CEO李开复博士对此表示，LMSYS提供了一个公正的第三方平台，其他竞争对手对此表示认可。尽管零一万物的团队规模、参数规模、GPU算力等相对较小，但团队持续探索，力求训练出与大厂相媲美的模型。 Elo评分系统被引入大模型竞技场，以确保排名的客观公正，该系统基于统计学原理，根据每场比赛调整评分。 Yi-Large在编程能力、长提问及最新推出的“艰难提示词”三个评测类别中表现突出，与Anthropic的旗舰模型Claude 3 Opus并列第二，仅低于GPT-4o。此外，Yi-Large的闭源版本在一周前刚刚对外发布。在推理方面，Yi-Large在HumanEval和MATH评测中均位列第一，超越了GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct等顶尖模型。 Yi-Large的下一步目标是采用MoE架构的Yi-XLarge，目前正处于训练阶段。大模型竞技场（Chatbot Arena）已成为各大模型竞逐的舞台，LMSYS组织的参与，推动了大模型领域的技术进步与公平竞争。竞技场通过匿名投票、盲测、大规模投票和动态更新评分机制，确保结果的客观性和专业性，吸引了全球44款模型参与评测。

LMSYS新测试基准，最强开源Llama 3分数骤降，实时更新竞技场数据，差距拉开了

在AI模型竞技场中，LMSYS推出了一款名为Arena-Hard的新测试基准，旨在为大模型间的性能评估提供更具区分度的挑战。之前，像Llama 3这样的模型分数普遍较高，但新基准的引入使得分数差距更加明显。相比于之前的MT Bench，Arena-Hard的区分度从22.6%提升到了87.4%，清晰地展现了模型间的实力对比。这个新基准利用实时的人类数据构建，与人类偏好一致性高达89.1%，这意味着其测试内容更贴近真实场景。更重要的是，它通过包含人类未曾见过的提示词，减少了潜在的数据泄露风险，并且新模型发布后，用户只需支付25美元，无需等待，即可快速获取测试结果。有人认为， Arena-Hard使用真实用户生成的提示词而非传统的考试模式进行评估，这一点至关重要。测试过程包括从大模型竞技场20万用户查询中筛选出高质量的500个提示词，经过BERTopic等工具的多步骤处理，确保了测试的多样性和质量。然而， Arena-Hard在使用GPT-4作为裁判时存在一定的偏见，但研究已证实这是前沿模型的普遍现象。实验显示，Claude 3系列的打分结果虽然有所提升，但在与人类投票结果的比较中，GPT-4的得分更接近真实情况。因此，有人建议采用多模型综合评分以提高准确性。团队通过更多消融实验验证了新基准的有效性，例如，提示词中涉及详细解答时，得分会增加；而关于闲聊的提示，虽然提高平均输出长度，但分数提升不大。此外，测试还揭示了模型间的评分差异，如GPT-4对错误的敏感性和Claude 3的宽容度，以及它们在编程指导方面的不同侧重。总的来说， Arena-Hard是一个正在发展中、旨在提供更公正和准确模型评估的新工具，用户可以在其GitHub和HuggingFace平台上查看更多详情。大模型竞技场的用户群体提问质量和多样性也得到了高度评价。