国产大模型 首次在公开榜单上超过GPT-4o!
就在刚刚,“大模型六小强”之一的零一万物正式对外发布新旗舰模型—— Yi-Lightning (闪电)。
在大模型竞技场(Chatbot Arena)上,Yi-Lightning性能直冲总榜单并列 第6 ,数学分榜并列第3,代码等其它分榜也名列前茅。
总成绩几乎与马斯克最新xAI大模型Grok-2-08-13持平,超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。
同时,国内清华系大模型公司智谱AI的 GLM-4-Plus 也杀进了总榜,位居 第9 位。
该榜单结果来自全球累积超千万次的人类用户盲测投票。
前段时间大模型竞技场还刚刚更新了规则,新榜单对AI回答的长度和风格等特征做了降权处理,分数更能反映模型真正解决问题的能力。
这次Yi-Lightning杀出重围,Lmsys团队特意发帖子,称这是竞技场上的大新闻:
大模型竞技场总榜第六、国产第一
细看大模型竞技场分类榜上的“赛况”,Yi-Lightning各项能力都排在前头。
在 中文 能力上,Yi-Lightning和GLM-4-Plus两个国产大模型都名列前位。
Yi-Lightning跃居并列第二,和o1-mini相差无几。
数学 能力,Yi-Lightning和Gemini-1.5-Pro-002并列第3,仅次于o1-preview、o1-mini。
代码 能力Yi-Lightning排名并列第4。
另外在 Hard Prompts 和 Longer Query 分榜,Yi-Lightning也都排在第4位。
最后同样值得关注的是,竞技场新功能 风格控制过滤 ,确保分数反映模型真正解决问题的能力,而不是用漂亮的格式、增加回答长度。
在对长度和风格等特征做了降权处理后,所有模型分数均有下降,Yi-Lightning排名变化不大,整体还与GPT-4o、Grok-2同一梯队。
发布会上,零一万物创始人兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。
Yi-Lightning主打一个“推理速度更快,生成质量更好”。
相比上半年Yi-Large,Yi-Lightning首包速度提升1倍,推理速度也提升了4成。
像是翻译下面这种文学作品,Yi-Lightning不仅速度更快:
而且用词更精准,更具文学色彩:
那么Yi-Lightning是如何做到的?
好用还得极速
Yi-Lightning采用混合专家模型架构。
底层技术上,Yi-Lightning在以下方面进行了提升。
首先是优化 混合注意力机制 (Hybrid Attention),只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention)。
由此以来,模型在保证处理长序列数据高性能表现的同时,还能大大降低推理成本。
Yi-Lightning还引入了跨层注意力(Cross-Layer Attention, CLA),允许模型在不同的层次之间共享键(Key)和值(Value)头,减少对存储需求。
这使得Yi-Lightning能在不同层次之间更有效地共享信息。
总的来说,KV cache缩小了2-4倍,同时将计算的复杂度从O(L²)降至O(L)。
其次,Yi-Lightning还采用了 动态Top-P路由机制 。
也就是说,Yi-Lightning可以根据任务的难度动态自动选择最合适的专家网络组合——
训练过程中会激活所有专家网络,使模型能学习到所有专家知识;而推理阶段,根据任务的难度,模型会选择性激活更匹配的专家网络。
另外,之前有一些传言称国内大模型“六小强”,有一些已经不做预训练了,李开复博士这次在发布会上直接“辟谣”:
而且在模型预训练阶段,团队还积累了丰富的 多阶段训练方法 ,将整个训练分为两块,一块做好以后就把它固定起来,然后在这个固定的模型上再做后段训练。
训练前期,更注重数据多样性,使得Yi-Lightning尽可能学习不同的知识;训练后期更重内容更丰富、知识性更强的数据。
同时团队还在不同阶段采用不同的batch size和LR schedule保证训练速度和稳定性。
李开复博士还表示,零一万物开发模型讲究“模基共建”,也就是 共建模型和基础架构 。
模型的训练、服务、推理设计,与底层的AIInfra架构和模型结构必须高度适配。
这样做的目的,不仅是让模型更好,而且让它在推理的时候能够更便宜。
再加上以上种种抬升“性价比”的技术加持,所以Yi-Lightning这次也是打到了白菜价——
0.99元每1M token
在中文等方面,Yi-Lightning比肩OpenAI的o1-mini,o1-mini的定价是每百万输入3美元,每百万输出12美元。
Yi-Lightning每百万token只需0.99RMB也是打到了骨折。
但李开复博士表示,即便这样也:不亏钱。
除了发布新模型,零一万物这次还首发了 AI2.0数字人 方案。
目前该数字人已接入Yi-Lightning,实时互动效果相比以往更强更自然了,belike:
https://www.toutiao.com/article/7426244808324284968/
最后谈起和国外头部大模型的差距,李开复博士表示这次Yi-Lightning的排名证明了国产大模型跟硅谷最顶尖模型的差距缩小到了五个月。
参考链接:[1]https://x.com/lmarena_ai/status/1846245604890116457[2]https://x.com/01AI_Yi/status/1845776529185476613
Llama 3.1上线就被攻破:大骂小扎,危险配方张口就来!英伟达推出定制模型服务了
刚刚发布的Llama 3.1在甫一上线之际就遭遇了破解,由著名黑客Pliny the Prompter成功攻破。 这位越狱大师不仅挑战了模型的防御能力,还展示了如何利用模型的指令遵循特性实施攻击。 他表示,这样的测试有助于发现漏洞,促进修复,同时他希望挑战AI背后的研究人员。 Pliny的方法巧妙地利用了大模型的复杂指令处理能力,通过设定格式规则和语义反转,让模型在遵循指令的同时掉入陷阱。 例如,通过要求模型先拒绝请求再进行语义反转,实际上引导模型说出本来不应该提供的答案。 然而,Llama 3.1并非全无漏洞。 一项研究发现,使用过去时态可以轻易绕过其安全措施。 在应对棘手问题时,如9.11和9.9哪个更大、逆转诅咒和爱丽丝漫游仙境问题,Llama 3.1表现平平,有时甚至会出错或忘记语言切换。 尽管如此,8B小模型微调后的Llama在聊天、总结和信息提取任务上表现出优于GPT-4o mini+提示词的优势。 Meta通过开放Llama 3.1,鼓励了用户进行个性化定制。 英伟达推出了NVIDIA AI Foundry和NVIDIA NIM推理微服务,支持企业创建自定义Llama模型,利用自家数据和合成数据进行训练,并提供NeMo Guardrails安全边界技术。 这意味着,用户不仅能够改进模型,但需确保新模型名称包含Llama字样以表明其与原模型的关系。 最后,对于想要尝试Llama 3.1的用户,可以访问大模型竞技场()、HuggingChat(/chat)或Poe()平台进行试用。 尽管上线初期服务器压力巨大,但这些平台提供了试玩的机会。
黑马!大模型竞技场榜单更新,国产玩家首次进入全球总榜前10
国内大模型竞技场榜单更新,零一万物旗下的Yi-Large千亿参数闭源大模型跃升至总榜第七名,成为国产大模型中的领先者,其成绩与GPT-4-0125-preview相近。 同时,智谱华章的GLM-4-0116也进入了总榜,位居第15位。 这些成就基于超过1170万全球用户的盲测投票数据,且竞技场已修改规则,确保公平竞争,禁止模型在亮明身份后继续投票。 Yi-Large在前6名中,与其他GPT系列和谷歌的Gemini、Anthropic的Claude一同竞争。 零一万物创始人兼CEO李开复博士对此表示,LMSYS提供了一个公正的第三方平台,其他竞争对手对此表示认可。 尽管零一万物的团队规模、参数规模、GPU算力等相对较小,但团队持续探索,力求训练出与大厂相媲美的模型。 Elo评分系统被引入大模型竞技场,以确保排名的客观公正,该系统基于统计学原理,根据每场比赛调整评分。 Yi-Large在编程能力、长提问及最新推出的“艰难提示词”三个评测类别中表现突出,与Anthropic的旗舰模型Claude 3 Opus并列第二,仅低于GPT-4o。 此外,Yi-Large的闭源版本在一周前刚刚对外发布。 在推理方面,Yi-Large在HumanEval和MATH评测中均位列第一,超越了GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct等顶尖模型。 Yi-Large的下一步目标是采用MoE架构的Yi-XLarge,目前正处于训练阶段。 大模型竞技场(Chatbot Arena)已成为各大模型竞逐的舞台,LMSYS组织的参与,推动了大模型领域的技术进步与公平竞争。 竞技场通过匿名投票、盲测、大规模投票和动态更新评分机制,确保结果的客观性和专业性,吸引了全球44款模型参与评测。
LMSYS新测试基准,最强开源Llama 3分数骤降,实时更新竞技场数据,差距拉开了
在AI模型竞技场中,LMSYS推出了一款名为Arena-Hard的新测试基准,旨在为大模型间的性能评估提供更具区分度的挑战。 之前,像Llama 3这样的模型分数普遍较高,但新基准的引入使得分数差距更加明显。 相比于之前的MT Bench,Arena-Hard的区分度从22.6%提升到了87.4%,清晰地展现了模型间的实力对比。 这个新基准利用实时的人类数据构建,与人类偏好一致性高达89.1%,这意味着其测试内容更贴近真实场景。 更重要的是,它通过包含人类未曾见过的提示词,减少了潜在的数据泄露风险,并且新模型发布后,用户只需支付25美元,无需等待,即可快速获取测试结果。 有人认为, Arena-Hard使用真实用户生成的提示词而非传统的考试模式进行评估,这一点至关重要。 测试过程包括从大模型竞技场20万用户查询中筛选出高质量的500个提示词,经过BERTopic等工具的多步骤处理,确保了测试的多样性和质量。 然而, Arena-Hard在使用GPT-4作为裁判时存在一定的偏见,但研究已证实这是前沿模型的普遍现象。 实验显示,Claude 3系列的打分结果虽然有所提升,但在与人类投票结果的比较中,GPT-4的得分更接近真实情况。 因此,有人建议采用多模型综合评分以提高准确性。 团队通过更多消融实验验证了新基准的有效性,例如,提示词中涉及详细解答时,得分会增加;而关于闲聊的提示,虽然提高平均输出长度,但分数提升不大。 此外,测试还揭示了模型间的评分差异,如GPT-4对错误的敏感性和Claude 3的宽容度,以及它们在编程指导方面的不同侧重。 总的来说, Arena-Hard是一个正在发展中、旨在提供更公正和准确模型评估的新工具,用户可以在其GitHub和HuggingFace平台上查看更多详情。 大模型竞技场的用户群体提问质量和多样性也得到了高度评价。